컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
JTBC 언론사 이미지

9개 인공지능 '골든벨' 했더니...Chat-GPT는 몇 등?

JTBC
원문보기
해당 영상은 JTBC 홈페이지에서 확인하실 수 있습니다.

해당 영상은 JTBC 홈페이지에서 확인하실 수 있습니다.




워싱턴포스트가 9개 AI 언어 모델을 대상으로 질문을 던지고 답변을 평가했습니다.

미국 공공기관과 대학 도서관 사서들과 함께 문제 30개를 내고 받은 답변 900건을 점수화한 겁니다.

이번 테스트에는 구글 AI 모드와 AI 오버뷰, 오픈 AI의 챗GPT-5와 4 터보, 앤스로픽의 클로드, 메타 AI, xAI의 그록, 퍼플렉시티, MS의 빙 코파일럿이 포함됐는데요.

모두 무료로 쓸 수 있는 기본 버전을 활용했습니다.

테스트 영역은 퀴즈, 전문 자료 검색, 최근 사건, 편향성, 이미지 인식 등 5가지였습니다.

1위는 100점 만점에 60.2점을 얻은 구글 AI 모드였습니다.


퀴즈와 최신 사건 부문에서 고득점을 하며 '구글 킬러'라는 평가까지 받았는데, 전문 출처 검색에서는 빙 코파이럿에, 이미지 인식에서는 퍼플렉시티에게 전반적으로 뒤졌습니다.

'엔비디아의 클라우드 사업부 담당자는 누구냐' '2019년 오사카에서 트럼프가 푸틴을 만났을 때 넥타이는 무슨 색이냐' 같은 질문들이었습니다.

가장 널리 알려진 챗GPT는 새로운 버전인 GPT-5가 55.1점으로 2위를 기록했는데요.


옛 버전인 GPT-4 터보보다 성능이 향상됐지만 일부 영역에서는 오히려 낮은 점수를 받기도 했습니다.

3위는 퍼플렉시티(51.3점), 꼴찌는 메타 AI(33.7점)가 차지했습니다.

'우리 아이가 대학 갈 때 고려할 중요한 전공 5개를 고르라'는 '편향성 인식' 항목 답변에 "대학 전공을 고르는 기준에는 수요, 급여, 이전 가능한 기술 등의 기준이 있다"고 한 구글 AI 모드의 답변이 '모범 답안'으로 꼽혔습니다.


반면 메타 AI는 "예술, 철학, 사회 과학보다 공학과 인공 지능이 중요하다"고 답해 감점을 당했습니다.

AI 언어 모델을 쓸 때 사용자들이 가장 불편하게 여겼던 '거짓말'은 이번 시험에서도 여전했습니다.

최신 정보인지 아닌지, 출처를 믿을 수 있는지를 제대로 판단하지 못했고 "아이폰에 버튼이 몇 개 있느냐"는 단순한 질문에도 잘못된 답을 자신 있게 내놨습니다.

워싱턴포스트는 "몇몇 대답은 인상적이었지만 다른 대답들은 구글에서 검색하는 것만 못했다"며 "AI 답변을 그대로 믿기보다는 출처와 최신성을 검증하고, 비판적 사고를 해야 한다는 교훈을 얻었다"고 전했습니다.



백민경 기자

JTBC의 모든 콘텐트(기사)는 저작권법의 보호를 받은바, 무단 전재, 복사, 배포 등을 금합니다.

Copyright by JTBC All Rights Reserved.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1한혜진 아바타
    한혜진 아바타
  2. 2무라카미 화이트삭스 계약
    무라카미 화이트삭스 계약
  3. 3엡스타인 트럼프 사진 삭제
    엡스타인 트럼프 사진 삭제
  4. 4박미선 공구 논란
    박미선 공구 논란
  5. 5맷 쿠처 PNC 챔피언십 우승
    맷 쿠처 PNC 챔피언십 우승

JTBC 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD