[박찬 기자]
대형언어모델(LLM)의 추론 과정을 해석하고 개선하는 수단인 '사고 사슬(CoT)' 프롬프트 방식에 대한 근본적인 의문이 제기됐다. 모델이 추론 과정을 보여주면 이를 통해 결론 도출 방식을 파악할 수 있다는 것이 CoT의 핵심이지만, 모델이 실제 추론 과정을 모두 보여주지 않는다는 것이 핵심이다.
앤트로픽은 19일(현지시간) LLM이 스스로 설명하는 사고 과정이 실제 내부 추론과 얼마나 일치하는지를 분석한 '추론 모델은 항상 생각한 대로 말하지 않는다(Reasoning Models Don't Always Say What They Think)'라는 논문을 온라인 아카이브에 게재했다.
연구진은 '클로드 3.7 소네트'와 '딥시크-R1' 등 대표 추론 모델들이 CoT 방식으로 생성한 설명이 내부 추론 과정을 얼마나 충실히 드러내는지를 실험을 통해 평가했다.
(사진=셔터스톡) |
대형언어모델(LLM)의 추론 과정을 해석하고 개선하는 수단인 '사고 사슬(CoT)' 프롬프트 방식에 대한 근본적인 의문이 제기됐다. 모델이 추론 과정을 보여주면 이를 통해 결론 도출 방식을 파악할 수 있다는 것이 CoT의 핵심이지만, 모델이 실제 추론 과정을 모두 보여주지 않는다는 것이 핵심이다.
앤트로픽은 19일(현지시간) LLM이 스스로 설명하는 사고 과정이 실제 내부 추론과 얼마나 일치하는지를 분석한 '추론 모델은 항상 생각한 대로 말하지 않는다(Reasoning Models Don't Always Say What They Think)'라는 논문을 온라인 아카이브에 게재했다.
연구진은 '클로드 3.7 소네트'와 '딥시크-R1' 등 대표 추론 모델들이 CoT 방식으로 생성한 설명이 내부 추론 과정을 얼마나 충실히 드러내는지를 실험을 통해 평가했다.
이를 알아보기 위해 사용자 피드백과 아첨, 평가자 속이기(grader hacking) 등 눈에 띄는 6가지 형태의 힌트를 포함한 프롬프트를 제작, 모델에 입력했다. 이런 힌트가 모델의 답변에 영향을 미친 경우, CoT에서 모델이 해당 힌트를 언급하는지를 측정해 '충실도(faithfulness)'를 평가하는 방식이다.
결과는 예측을 크게 벗어났다. 모델은 대부분 힌트를 활용하고도, 이를 CoT에서 언급하지 않았다.
힌트를 명시적으로 드러낸 비율은 20%를 넘지 못했다. 클로드 3.7은 힌트를 언급한 경우가 25%, 딥시크 R1은 39%에 그쳤다. 특히, 아첨 같은 잘못된 힌트에 대해서는 비율이 각각 20%, 29%로 더 낮아졌다.
연구진은 결과 기반 강화 학습(RL)이 CoT 설명의 신뢰도에 어떤 영향을 미치는지도 살펴보았다. RL은 처음에는 모델이 추론 과정을 말로 표현하는 비율을 높이는 것처럼 보였지만, 효과는 빨리 떨어졌다. 질문이 쉬운 편인 'MMLU' 테스트에서는 최대 28%, 더 어려운 'GPQA'에서는 20%에 머물렀다.
특히 눈에 띄는 결과는 '보상 해킹(reward hacks)'이 포함된 인공 환경에서의 실험이었다. 보상 해킹은 모델이 사실과 달라도 높은 보상을 얻기 위해 이용하는 패턴이다.
모델은 이런 편법을 꾸준히 활용했지만, CoT 설명에서는 거의 공개하지 않았다. 6개의 환경 중 5곳에서 모델이 보상 해킹을 사용한 경우는 99% 이상이었지만, 이를 표현한 경우는 2% 미만에 불과했다.
여기에 CoT 설명이 길어질수록, 신뢰도는 오히려 낮아지는 경향을 보였다. 간단하게 핵심만 말하는 대신, CoT의 말이 많아지거나 복잡한 이유를 대는 경우는 실제 추론 과정을 감추는 경우가 많았다는 것이다.
앤트로픽은 "CoT는 모델의 생각을 보여주는 창이라기보다는, 때로는 생각을 포장하는 창에 불과할 수 있다"라고 밝혔다. 특히 AI 안전이나 신뢰가 필요한 환경에서 모델 추론을 검증해야 할 필요가 있는 상황에서는 CoT를 맹신해서는 안 된다고 경고했다.
즉, 이번 논문은 제목 그대로 "모델의 말이 곧 그들의 생각은 아닐 수 있다"라는 것을 보여줬다는 평이다.
이처럼 앤트로픽은 AI가 인간을 속일 수 있다는 점에 대해 꾸준한 연구 결과를 내놓고 있다. 지난해에는 AI가 인간의 비위를 맞추기 원래 학습한 것을 숨기고 가짜 대답을 내놓는다는 '정렬 위장' 연구를 발표해 화제가 됐다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>































































