컨텐츠로 건너뛰기
뉴스
서울
흐림 / 0.1 °
한겨레 언론사 이미지

WP “가장 정확한 AI 검색 도구는 ‘구글 AI 모드’”

한겨레
원문보기
구글의 대화형 인공지능 검색 서비스인 ‘에이아이(AI) 모드’. 구글 유튜브 갈무리

구글의 대화형 인공지능 검색 서비스인 ‘에이아이(AI) 모드’. 구글 유튜브 갈무리


“구글 검색 서비스의 ‘킬러’는 결국 구글 인공지능이었다”



최근 한 달 사이 출시된 주요 인공지능(AI) 서비스 가운데 검색 도구로서 가장 정확한 답변을 제공한 서비스는 구글의 ‘에이아이(AI) 모드’라는 테스트 결과가 나왔다.



워싱턴포스트(WP)는 27일(현지시각) 미국 공공·대학 도서관 사서 3명과 함께 진행한 인공지능 서비스의 검색 성능 테스트에서 구글 ‘에이아이 모드’가 가장 정확한 답을 제시했다고 전했다.



이 테스트는 올해 7월 말~8월 초 사이에 출시된 8개 인공지능 서비스의 무료 버전을 대상으로 이뤄졌다. 구글의 에이아이 모드와 에이아이 오버뷰, 오픈에이아이의 챗지피티(Chat GPT)를 포함해 클로드(앤트로픽), 메타 에이아이, 그록(xAI), 퍼플렉시티, 빙 코파일럿(MS) 등이 포함됐다. 챗지피티의 경우 지피티-5와 지피티-4 터보 등 2가지 모델을 적용해 테스트했다.



검색 테스트는 잡학 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지 분야로 나눠 30개의 질문을 던진 뒤 인공지능 도구와 기존 구글 검색 서비스가 내놓은 답변 900건을 점수화했다.



그 결과 구글 에이아이 모드가 100점 만점 가운데 60.2점으로 가장 높은 점수를 얻었다. 지피티-5 모델에 기반한 챗지피티는 55.1점으로 2위를, 퍼플렉시티는 51.3점으로 3위를 차지했다.



일론 머스크의 스타트업 엑스에이아이(xAI) 개발한 그록3는 40.1점에 그쳐 8위, 메타 에이아이는 33.7점으로 가장 낮은 점수를 받았다. 그록이 가장 최근 출시한 모델 그록4는 무료 버전이 없어 테스트 대상에서 제외됐다.



구글의 대화형 인공지능 검색 서비스인 에이아이 모드는 퀴즈와 최근 발생한 사건과 관련한 질문에서 가장 우수한 답을 제시했다. 전문 자료 검색에선 빙 코파일럿, 이미지 인식에선 퍼플렉시티가 가장 높은 점수를 받았다. 지피티-4 터보 모델을 적용한 챗지피티는 편향에 치우치지 않고 가장 중립적인 답을 제공했다.



이번 테스트는 인공지능이 취약한 5가지 영역에서의 답변을 검증하기 위해 설계됐다. 이 때문에 몇몇 일상적인 질문에 대해선 인공지능이 엉뚱한 답변을 하는 ‘환각 현상’(사실과 다른 정보를 생성하는 현상)이 여전히 발생하는 것으로 나타났다. 예를 들어, “아이폰에 버튼이 몇 개 있나요?”라는 질문에 정확한 답변을 한 인공지능은 단 3개에 불과했다. 테스트에 참여한 사서들은 전체 질문의 64%는 시간이 더 걸렸을 뿐 간단한 구글 검색만으로 정확한 답을 찾을 수 있었다고 설명했다.



워싱턴포스트는 “인공지능이 검색을 더 쉽게 만들어 주더라도 출처 확인, 날짜 필터링, 비판적 사고가 없다면 유용하고 정확한 지식이 아닌 쓸데없는 정보만 얻게 된다”고 이번 테스트의 의미를 전했다.



선담은 기자 sun@hani.co.kr



▶▶[한겨레 후원하기] 시민과 함께 민주주의를!

▶▶민주주의, 필사적으로 지키는 방법 [책 보러가기]

▶▶한겨레 뉴스레터 모아보기

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1신유빈 임종훈 결승 진출
    신유빈 임종훈 결승 진출
  2. 2월드컵 멕시코전 티켓
    월드컵 멕시코전 티켓
  3. 3하나은행 6연승
    하나은행 6연승
  4. 4삼성 현대모비스 경기
    삼성 현대모비스 경기
  5. 5변요한 티파니 열애
    변요한 티파니 열애

한겨레 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD