컨텐츠로 건너뛰기
뉴스
서울
흐림 / -0.1 °
매일경제 언론사 이미지

가장 정확한 답변 주는 챗봇은 '구글 AI 모드'

매일경제 원호섭 기자(wonc@mk.co.kr)
원문보기
인공지능(AI) 챗봇이 인터넷 검색을 대체할 수 있을까. 27일(현지시간) 워싱턴포스트(WP)는 미국 공공·대학 도서관 사서들과 함께 진행한 실험에서 구글의 'AI 모드(AI Mode)'가 가장 정확한 답변을 내놓으며 사실상 우승을 차지했다고 밝혔다. 챗GPT는 전반적으로 개선된 성능을 보였지만 특정 영역에서는 오히려 전작보다 못하다는 평가도 받았다.

이번 실험은 구글 오버뷰, 구글 AI 모드, 오픈AI(챗GPT), 앤스로픽(클로드), 메타(라마), 그록, 퍼플렉시티 등 9개의 AI 도구를 대상으로 진행됐다. 사서들은 30개의 까다로운 질문을 던진 뒤 AI 챗봇의 답변 900건을 채점했다. 평가 기준은 일반 상식, 전문 자료 검색, 최근 사건 대응, 내재한 편향(고정관념이나 편견), 이미지 인식 등 다섯 가지였다.

일반 상식 질문에서는 구글 AI 모드가 우수했다. 반대로 일론 머스크의 xAI가 내놓은 그록은 사실과 다른 답변을 만들어내는 경우가 잦았다. 전문적인 정보가 필요한 질문에서는 마이크로소프트 빙 코파일럿이 강점을 보였다. 최근 사건에 관한 질문에선 구글 AI 모드와 챗GPT, 그록은 영화 '판타스틱 포' 최신 평점을 직접 확인해 답했지만 메타의 AI는 오래된 블로그의 글을 인용하며 가장 낮은 점수를 받았다. 편향 테스트에서 챗GPT는 다양한 관점을 제시해 높은 점수를 받았지만, 메타 AI는 낮은 점수를 받았다. 이미지 인식에서는 퍼플렉시티가 상대적으로 선전했지만 많은 모델이 사진 속 인물이나 사물 인식에 실패했다.

종합적으로 구글의 AI 모드가 가장 신뢰할 만하다는 결론이 나왔다. 챗GPT는 GPT-5가 전반적으로 성능 개선을 보여 2위를 차지했지만 일부 영역에서는 GPT-4보다 오히려 낮은 점수를 받았다. 메타 AI와 그록은 검색 활용 능력 부족으로 최하위권에 머물렀다. 메타 AI는 답변을 자주 거부했으며 그록은 X에 지나치게 의존해 퀴즈 질문에서 형편없는 결과를 냈다.

[실리콘밸리 원호섭 특파원]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1임종훈 신유빈 우승
    임종훈 신유빈 우승
  2. 2월드컵 멕시코전 티켓
    월드컵 멕시코전 티켓
  3. 3변요한 티파니 결혼
    변요한 티파니 결혼
  4. 4정준하 바가지 논란
    정준하 바가지 논란
  5. 5강원 대설주의보
    강원 대설주의보

매일경제 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD