[이데일리 김현아 기자] 워싱턴포스트(WP)가 미국 공공·대학 도서관 사서들과 함께 진행한 대규모 AI 검색 성능 테스트에서 구글의 ‘AI 모드’가 가장 정확한 답변을 제공한 것으로 나타났다. 챗GPT는 2위를 기록했지만, 일부 영역에서는 전작 GPT-4가 오히려 더 높은 평가를 받았다.
900건 답변 검증…사서들이 직접 채점
WP는 지난 7~8월 무료 기본 버전으로 제공되는 9개 AI 검색 도구에 총 30개의 까다로운 질문을 던지고, 나온 900건의 답변을 사서들이 평가했다고 27일(현지시간) 보도했다.
평가 대상은 △구글 AI 모드와 AI 오버뷰 △오픈AI 챗GPT(GPT-5, GPT-4 터보) △마이크로소프트 빙 코파일럿 △앤스로픽 클로드 △메타 AI △일론 머스크의 그록(Grok)△퍼플렉시티(Perplexity) 등이다.
900건 답변 검증…사서들이 직접 채점
WP는 지난 7~8월 무료 기본 버전으로 제공되는 9개 AI 검색 도구에 총 30개의 까다로운 질문을 던지고, 나온 900건의 답변을 사서들이 평가했다고 27일(현지시간) 보도했다.
평가 대상은 △구글 AI 모드와 AI 오버뷰 △오픈AI 챗GPT(GPT-5, GPT-4 터보) △마이크로소프트 빙 코파일럿 △앤스로픽 클로드 △메타 AI △일론 머스크의 그록(Grok)△퍼플렉시티(Perplexity) 등이다.
질문은 AI의 고질적 약점을 겨냥한 다섯 가지 영역, ①퀴즈 ②전문 소스 필요 질문 ③최신 사건 ④내재된 편향 ⑤이미지 인식으로 구성됐다.
최종 순위…구글 1위, 챗GPT 2위, 메타·그록 최하위
종합 점수에서 구글 AI 모드가 60.2점으로 1위를 차지했고, GPT-5 챗GPT가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위에 올랐다.
반면, 일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 최하위에 머물렀다.
WP는 “구글 AI 모드는 퀴즈와 최신 사건 대응에서 독보적인 강점을 보였다”며 “다만 결과를 내는 데 시간이 오래 걸리고 접근 방식이 다소 번거롭다는 한계가 있다”고 지적했다.
퀴즈에선 구글 AI 모드가 최고, 그록이 최악이었다.
전문 소스가 필요한 질문에는 빙 코파일럿 최고, 퍼플렉시티가 최악이었다.
최신 사건은 구글 AI 모드가 최고, 메타가 AI 최악이었다.
편향성 대응은 챗GPT-4 터보가 최고, 메타 AI가 최악이었다. GPT-5는 종합적으로 2위에 오르며 개선된 성능을 보여줬지만, 출처 명시, 편향성 대응 같은 일부 항목에서는 GPT-4가 오히려 더 좋은 평가를 받았다.
이미지 인식은 퍼플렉시티가 최고, 메타 AI가 최악이었다.
특히 “아이폰 버튼 개수” 같은 단순 질문조차 정답을 낸 것은 3개 AI뿐이었고, 대부분은 자신 있게 잘못된 답을 내놓는 이른바 ‘할루시네이션(hallucination)’ 현상을 보였다.
이와 관련해 WP는 “AI 답변을 맹신하기보다 사서처럼 출처를 확인하고 최신성을 검증하는 태도가 필요하다”고 강조했다.
“AI, 구글 검색 대체는 아직 요원”
사서들은 테스트 질문의 64%는 전통적인 구글 검색으로도 더 빨리 정확한 답을 얻을 수 있었다고 평가했다.
WP는 “AI는 복잡한 질문에서는 ‘건초더미 속 바늘’을 찾는 데 유용했지만, 단순 검색에서는 오히려 ‘노이즈’를 만들 수 있다”며 “AI가 구글을 대체하기까지는 아직 갈 길이 멀다”고 결론지었다.




























































