컨텐츠로 건너뛰기
뉴스
서울
흐림 / 1.9 °
파이낸셜뉴스 언론사 이미지

AI '요약', 믿지 마세요…"요약한 과학 논문, 일반화된 편향 많아" [글로벌 IT슈]

파이낸셜뉴스 서윤경
원문보기
연구팀 "챗GPT·딥시크 등 챗봇 10개, 70% 이상 부정확한 결론 도출"
편향 줄이려면…창의성 낮게 조절하고 간접적인 과거 시제 사용 요청


/사진=연합뉴스

/사진=연합뉴스


[파이낸셜뉴스] 인공지능(AI) 이용자들이 많이 사용하는 기능 중 하나인 '요약'이 사실은 오류가 많다는 사실이 연구로 확인됐다. 챗GPT, 딥시크 등 유명 AI 챗봇의 과학 논문 요약을 분석해 보니 최대 70% 이상에서 과도한 편향이 발생한 것으로 조사됐다.

네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반의 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석해 그 결과를 발표했다.

발표된 내용을 보면 최대 73%에서 과도한 일반화로 부정확한 결론이 도출되는 걸 확인했다.

연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다. 여기서 놀라운 건 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 사실"이라고 말했다.

연구팀은 챗GPT-4o와 챗GPT-4.5, 딥시크, 라마 3.3 70B, 클로드 3.7 소네트 등 챗봇 10개가 '네이처(Nature)', '사이언스(Science)', '랜싯(Lancet)' 등 과학·의학 저널에 게재된 초록과 논문 전문을 얼마나 정확히 요약하는지 평가했다.

그리고 4900개의 LLM 생성 요약문을 분석해 10개 AI 모델 중 6개가 원문 주장에 대해 체계적인 과장 현상을 보였다는 결론을 도출했다.


미묘한 차이를 통해 독자에게 영향을 줄 수 있는 방식으로 일어난 점도 확인했다. 가령 '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 AI는 '이 치료는 효과적이다'와 같이 확신에 찬 현재 시제로 바꾸는 식이다.

연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커지고 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제라고 지적했다.

페터스 박사는 "학생, 연구자, 정책 결정자들은 챗GPT에 부정확성을 피하라고 요청하면 더 신뢰할 수 있는 요약을 얻을 수 있을 것이라 기대했을 것"이라며 "하지만 기대와 달리 결과는 정반대였다"고 우려했다.


연구팀은 AI의 과도한 일반화 편향을 줄이려면 챗봇의 창의성을 조절하는 변수인 온도(temperature)를 낮게 설정하는 동시에 AI에 요청할 때 반드시 간접적인 과거 시제를 사용해 요약문을 생성하도록 지시할 필요가 있다고 요청했다.
#AI #챗GPT #요약 #딥시크

y27k@fnnews.com 서윤경 기자

Copyrightⓒ 파이낸셜뉴스. 무단전재 및 재배포 금지.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1석현준 용인FC 합류
    석현준 용인FC 합류
  2. 2김수현 김새론 녹취록
    김수현 김새론 녹취록
  3. 3KB스타즈 3연패 탈출
    KB스타즈 3연패 탈출
  4. 4서명진 7연패 탈출
    서명진 7연패 탈출
  5. 5김혜경 여사 문화협력
    김혜경 여사 문화협력

파이낸셜뉴스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD