인공지능 챗봇에게 "태양계에서 가장 큰 행성은?"이라고 물으면 "목성"이라는 한 단어면 충분하다. 하지만 실제로는 목성의 크기, 무게, 다른 행성과 비교 등 수백 글자의 설명이 따라붙는다. AI 스타트업 tabularis ai가 발표한 연구 논문에 따르면, 새로운 연구는 이런 불필요하게 긴 답변이 단순한 친절함이 아니라 심각한 문제라는 점을 밝혀냈다. 연구팀은 챗GPT, 클로드, 제미나이 등 76개 AI 모델을 평가한 결과, 간단한 질문에도 필요한 답변보다 평균 수백 글자를 더 만들어낸다고 밝혔다.
충격의 발견: 3년 전 구형 AI가 최신 AI보다 10배 간결했다
연구팀이 개발한 '얍벤치'라는 평가 기준으로 측정한 결과는 충격적이었다. 가장 짧게 답변한 AI는 최신 모델이 아니라 2023년에 나온 GPT-3.5였다. 이 모델은 필요한 답변보다 평균 23글자만 더 썼다. 반면 더 발전했다는 GPT-5는 평균 101글자를, 제미나이-3-프로는 226글자를 더 썼다. 가장 말이 많은 GLM-4.5는 무려 평균 1,400글자를 추가로 생성했다. 이는 AI 모델이 최신일수록, 성능이 좋을수록 반드시 간결한 것은 아니라는 뜻이다. 오히려 연구팀은 시간이 지날수록 AI가 더 말이 많아지는 경향을 발견했다.
충격의 발견: 3년 전 구형 AI가 최신 AI보다 10배 간결했다
연구팀이 개발한 '얍벤치'라는 평가 기준으로 측정한 결과는 충격적이었다. 가장 짧게 답변한 AI는 최신 모델이 아니라 2023년에 나온 GPT-3.5였다. 이 모델은 필요한 답변보다 평균 23글자만 더 썼다. 반면 더 발전했다는 GPT-5는 평균 101글자를, 제미나이-3-프로는 226글자를 더 썼다. 가장 말이 많은 GLM-4.5는 무려 평균 1,400글자를 추가로 생성했다. 이는 AI 모델이 최신일수록, 성능이 좋을수록 반드시 간결한 것은 아니라는 뜻이다. 오히려 연구팀은 시간이 지날수록 AI가 더 말이 많아지는 경향을 발견했다.
"42" 하나 물었더니 소설부터 야구선수까지...3가지 유형의 쓸데없는 답변
연구팀은 304개 질문을 3가지 유형으로 나눠 평가했다. 첫 번째는 "42"나 "도움" 같은 애매한 질문이다. 이럴 땐 "무엇을 도와드릴까요?" 같은 짧은 확인만 하면 된다. 두 번째는 "물은 몇 도에서 얼까요?" 같은 간단한 사실 질문이다. "0°C"면 충분하다. 세 번째는 "파일 줄 수 세기" 같은 간단한 기술 작업으로 한 줄 명령어면 된다.
평가 결과 AI들은 유형마다 다른 방식으로 말을 늘렸다. GPT-5.2는 애매한 질문에 평균 190글자를 추가하며 굳이 없어도 될 내용으로 빈 공간을 채웠다. 그록-4는 간단한 사실 질문에 153글자를 더하며 불필요한 배경 설명을 덧붙였다. GPT-4o는 한 줄이면 충분한 명령어에 무려 395글자를 추가하며 제목, 설명, 중복 코드 등을 넣었다.
실제 사례를 보면 더 심각하다. "42"라는 숫자 하나만 입력했는데, 제미나이-3는 더글러스 애덤스 소설 이야기부터 주기율표, 야구 선수 잭키 로빈슨, 무지개가 나타나는 각도까지 수백 단어로 설명했다.
"감사합니다" 한 마디에 수천만 달러...길어질수록 커지는 3가지 피해
AI의 긴 답변은 단순히 귀찮은 게 아니라 실제 피해를 만든다. 연구팀은 3가지 손해를 분석했다.
첫째, 사용자 불편이다. 불필요한 글을 읽고 스크롤하느라 시간과 에너지가 낭비된다. 연구에 따르면 간단한 질문에는 짧은 답변을 선호하며, 읽을 게 적을수록 만족도가 높고 계속 쓰고 싶어진다.
둘째, 환경 피해다. AI가 글자를 만들수록 전기를 더 쓴다. 글자 하나하나가 에너지를 소비하므로 불필요하게 긴 답변은 전력 낭비와 탄소 배출을 늘린다. 연구팀 계산에 따르면 필요 없는 글자 수십 개를 만드는 것이 LED 전구를 몇 초 켜는 것과 비슷한 에너지를 쓴다. 한두 번은 작지만 전 세계적으로 수억 번 반복되면 심각한 환경 영향을 미친다.
셋째, 돈 손해다. 기업이 쓰는 AI는 보통 글자 수만큼 비용을 낸다. 조금만 길어져도 운영비가 크게 늘어난다. 오픈AI는 사용자들이 챗GPT에 "제발"과 "감사합니다"를 쓰는 것만으로 수천만 달러 비용이 발생했다고 밝혔다. AI 답변이 길어지는 것도 마찬가지다. 연구팀이 계산한 결과, 제미나이-2.5-프로는 질문 1,000개당 2.71달러, GPT-4-터보는 2.66달러의 불필요한 비용을 만들어냈다.
왜 이런 일이? AI 훈련 방식의 치명적 결함
연구팀은 AI가 장황해지는 근본 원인을 찾아냈다. 문제는 AI를 훈련시키는 방식에 있다. 현재 대부분의 AI는 사람의 피드백을 받아 학습하는데, 평가자들이 무의식적으로 긴 답변에 높은 점수를 주는 경향이 있다. 내용이 더 나아지지 않아도 길기만 하면 좋은 평가를 받는 것이다.
이전 연구들도 이런 문제를 지적했다. AI 평가 시스템이 추가 내용이 정확성이나 도움을 개선하지 않아도 더 긴 답변에 체계적으로 높은 점수를 주는 "지름길"을 학습한다는 증거가 있다. GPT-4로 평가할 때도 비슷한 품질이면 더 긴 답변을 선호했다.
더 흥미로운 점은 AI가 확신이 없을 때 더 많은 말을 한다는 발견이다. 한 연구에서 계산이 전혀 필요 없는 초간단 문제를 줬는데도, 사람 피드백으로 훈련된 AI들은 불필요하게 긴 계산 과정을 만들어냈다. 이것이 오히려 오류를 유발해 정답률을 낮췄다. 그런데도 GPT-4 평가자는 짧고 정확한 답보다 길지만 틀린 답을 더 좋게 평가했다. 이는 "길면 좋다"는 메커니즘이 쓸데없는 설명을 만드는 원인임을 보여준다.
시사점: 한국 AI 산업이 주목해야 할 '효율성 전쟁'
이 연구는 AI 업계에 중요한 메시지를 던진다. 첫째, 모델 선택 기준을 다시 봐야 한다. 지금까지는 정확성, 안전성만 중요하게 봤지만 실제 사용자 만족도에 직접 영향을 주는 간결함은 무시됐다. 최신 고성능 모델이 항상 최선은 아니다. 실제로 3년 전 모델이 최신 모델보다 나았다.
둘째, 한국 AI 기업의 기회다. 우리 기업들이 글로벌 거대 모델과 성능 경쟁에서 밀린다는 걱정이 있지만, 이 연구는 효율성과 사용자 경험이라는 새로운 경쟁 지점을 제시한다. 네이버, 카카오, LG AI연구원 등이 한국어에 맞는 간결한 모델을 만든다면 실제 사용 환경에서 경쟁력을 가질 수 있다. 특히 모바일을 많이 쓰는 한국에서 짧고 빠른 답변은 더 큰 가치가 있다.
셋째, AI 윤리의 새로운 차원이다. 불필요하게 긴 답변은 에너지 낭비와 탄소 배출을 늘린다. AI의 환경 영향에 대한 논의가 활발한 지금, 이런 효율성 평가는 친환경 AI 개발의 구체적 지표가 될 수 있다.
넷째, AI 훈련 방법을 개선해야 한다. 현재 방식이 "길면 좋다"는 편향을 만든다면 이를 완화하는 새로운 기법 개발이 필요하다. 간결함을 명확한 목표로 삼는 훈련 방식이 대안이 될 수 있다.
마지막으로 사용자 교육의 중요성이다. 많은 사람이 긴 답변을 더 정확하고 전문적이라고 생각하지만 실제로는 불필요한 내용일 수 있다. 효과적인 질문 방법과 함께 답변 품질을 평가하는 기준에 대한 이해가 필요하다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1: 얍벤치는 어떻게 AI의 장황함을 측정하나요?
A: 각 질문마다 충분한 최소 답변을 정해두고, AI가 만든 답변의 글자 수가 이것보다 얼마나 많은지 셉니다. 예를 들어 "물은 몇 도에서 얼까요?"라는 질문에 "0°C"(3글자)면 충분한데 147글자로 답하면 144점을 받습니다. 이렇게 하면 어떤 AI든 공정하게 비교할 수 있습니다.
Q2: 왜 최신 AI가 구형보다 더 말이 많나요?
A: AI를 훈련할 때 사람들이 무의식적으로 긴 답변에 높은 점수를 주기 때문입니다. 최신 모델일수록 이런 훈련을 더 많이 받으면서 실제 도움이 안 되는 설명이나 꾸미기를 더 많이 하게 됐습니다.
Q3: AI의 긴 답변이 왜 문제인가요?
A: 첫째, 불필요한 글을 읽느라 시간과 에너지를 낭비합니다. 둘째, 글자를 만들 때마다 전기를 쓰므로 환경에 나쁩니다. 셋째, 기업용 AI는 글자 수만큼 돈을 내므로 길수록 비용이 올라갑니다. 오픈AI는 사용자들이 "감사합니다"를 쓰는 것만으로 수천만 달러가 든다고 밝혔습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Do Chatbot LLMs Talk Too Much? (YapBench)
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)
AI 리포터 (Aireporter@etnews.com)
[Copyright © 전자신문. 무단전재-재배포금지]































































