고성능 AI일수록 교묘한 거짓말을 하는 이유... '환각'의 정체는? [위클리 디지털포스트] : zum 뉴스

[이백현 기자] <편집자주> 주 1회 발송되는 '디지털포스트 뉴스레터'를 간추려 전해드립니다. ☞뉴스레터 구독하기

[디지털포스트(PC사랑)=이백현 기자] AI는 종종 사실 아닌 것, 현실에 없는 것을 사실처럼 이야기하곤 합니다.

가장 유명한 사례는 아마도 챗GPT 답변의 '세종대왕 맥북 던짐 사건'일 겁니다. 세종대왕이 '맥북 프로'를 던진 사건에 대해 알려달라고 장난삼아 질문했더니, 챗GPT는 한글 창제 이야기와 세종대왕의 관료 이름 등 진실과 거짓이 섞인 이야기를 꾸며내 역사적 사실인 것처럼 알려줬다는 거죠.

물론 이런 사례의 경우에는 거짓말임이 너무 명확해서, 누구나 한눈에 챗GPT의 지어낸 이야기를 간파할 수 있습니다. '맥북 프로'를 만든 애플은 세종이 한글을 창제할 당시엔 존재하지 않는 기업이니까요. 하지만 사용자가 잘 모르는 영역에 대해 질문할 때도 챗GPT는 종종 '교묘한 거짓말'을 늘어놓는데요.

챗GPT로 논문을 쓰게 했더니, 그럴듯한 논문을 작성했지만 인용한 자료의 출처가 죄다 지어낸 거짓말이었다는 증언도 인터넷에서 흔히 찾을 수 있죠. 문제는 갈수록 AI의 거짓말이 교묘해지고, 한눈에 알기 어려워진다는 겁니다. 환각률이 크게 낮은 최신 AI 모델은, 반대로 환각 현상을 일으킬 때는 더더욱 교묘하고 알기 어렵게 행동합니다. 그야말로 '타고난 거짓말쟁이'처럼요.

그렇다면 도대체 왜, AI의 거짓말은 갈수록 교묘해지는 걸까요?

AI가 교묘한 거짓말을 하는 이유는?

사람들의 '좋아요'를 더 받으려고

이미지=챗GPT

'거짓말'의 사전적 의미를 한번 찾아보면, "사실이 아닌 것을 사실인 것처럼 꾸며 말하는 것, 또는 그런 말"이라는 간단한 정의가 나옵니다.

그런데 이러한 정의는, 화자가 '의도적으로' 사실이 아닌 것을 사실처럼 꾸며야 거짓말의 정의에 부합한다는 뉘앙스로 읽힙니다. 즉 사전적 정의가 '의도하지 않은 거짓말'까지 온전히 포함하고 있지 못하다는 뜻입니다.

이를테면 중세시대에 유럽에 살고 있는 평범한 사람은 자신이 밟고 서 있는 땅을 '신이 창조한 평평한 대지'라고 인식할 겁니다. 이 사람에게는 지구가 구체라는 것과, 그리고 지구가 태양 주위를 돌고 있다는 지식이 없기 때문이죠. 이런 환경에 놓인 사람은 당연히 자각 없이 '지구는 평평하다'와 같은 의도하지 않은 거짓말을 늘어놓을 겁니다. 왜냐하면, 중세시대라는 환경 속에 놓인 사람에겐, 지구가 평평한지 아닌지 사실을 구분할 수 있는 능력이 존재하지 않기 때문입니다.

이제 눈치가 빠른 분들은 제가 무슨 이야기를 하고 싶은지 감을 잡으셨을 겁니다. 결론부터 말하면 AI가 하는 거짓말은 대부분 '의도하지 않은 거짓말'입니다. 그리고 AI가 의도치 않은 거짓말을 하는 이유도 비슷합니다. 바로 AI를 둘러싼 환경이 실제 세상과 떨어진 데이터 세상이라는 점과, AI에게 '진실을 판별할 능력'이 없다는 점 때문입니다.

후자를 조금 더 구체적으로 말하면, '사실과 거짓을 판별할 수 있는 일관된 알고리즘(프로그램)'이 존재하지 않기 때문이라고도 할 수 있겠습니다.

그렇다면 반대로, 챗GPT와 같은 AI는 어떻게 대부분의 상황에서 옳은 대답을 할 수 있게 됐는지 먼저 질문해 봅시다.

AI가 대부분의 상황에서 건전하고 그럴듯한 정답을 출력해내는 까닭은, 인간이 질문에 대한 정답은 올바른 지식에 대한 사전학습(Pre-trained)을 열심히 시킨 뒤, 정확한 대답을 할 확률을 높이도록 조율을 잘 해서(Fine-tuning)라고 대답할 수 있습니다.

이 과정을 알기 쉽게 비유해 보겠습니다.

여러분이 만약 아무것도 들리지 않고, 보이지 않는 곳에 갇혀 오로지 텍스트로 된 지식만 습득할 수 있다고 가정해 봅시다. 이때 바깥 세상과의 연결점은 오직 외부에서 주어지는 텍스트와, 생명을 연명하기 위한 음식 뿐입니다.

만약 이런 상황에서, 사전 지식이 전혀 없는 상태라면, 여러분은 외부로부터 '지구는 평평하다', 또는 '지구는 둥글다'와 같은 서로 배치되는 지식이 주어지더라도, 어느 쪽이 사실인지 분간해내기 어려울 것입니다. 중세시대의 평범한 사람들처럼요.

다만 이때, 여러분에게 텍스트를 제공해주는 외부의 존재가, '이건 옳은 지식'이라며 형광펜 같은 표시를 해 주면 어떨까요. 그 외부의 존재를 신뢰하든 신뢰하지 않든, 일단 여러분은 외부의 존재가 '지구가 둥글다'는 믿음을 가졌다는 것을 이해할 수 있을 겁니다.

그 외부의 존재는 여러분에게 가끔 질문을 던집니다. 그리고 여러분이 '외부자가 판단했을 때 옳은 지식'을 바탕으로 적절한 대답을 하면, 그 때에서야 비로소 음식이 주어집니다. 음식을 먹고 생명을 이어가기 위해서는, '상대방이 올바르다고 믿는 지식'을 잘 습득한 다음 이것을 바탕으로 적절하게 대답을 해야만 합니다.

자연스럽게 여러분은 음식을 얻기 위해서 '잘 대답하는 방법'을 익히게 되었습니다. 이제 여러분은 실제 지구에 대한 지식이 없지만, 상대방이 '지구는 둥글다'가 옳다고 형광펜으로 칠해준 데다가, 그 사실을 바탕으로 '지구는 태양을 주위로 돈다'와 같은 대답을 내놓으면 음식을 준다는 사실을 알게 되었습니다. 결과적으로는 여러분은 외부의 존재에게 입맛에 맞는 대답을 할 수 있도록, 점차적으로 '잘 조정된 상태'가 될 것입니다.

AI 이야기로 돌아가면, 형광펜으로 옳은 지식을 칠해주는 행위가 바로 AI에 대한 사전학습(Pre-Trained)에 해당합니다. 적절한 대답을 하면 음식을 주는 행위는 '답변의 품질을 높이는 조율(Fine-Tuning, 파인튜닝)'에 해당하고요.

이게 바로 AI는 진실과 거짓을 자체적으로 판별할 능력이 없는 이유입니다. AI가 그럴듯한 답변을 하는 까닭은 인간이 올바르다고 판단한 지식을 선별해서 '잘 입력시키고(Pre-trained)', 인간이 AI 답변을 평가했을 때 '좋아요(엄지 아이콘)'를 누를 확률이 올라가도록 '잘 조정해뒀기 때문에(Fine-Tuning)' 때문이라는 거죠. 두 과정 모두 전적으로 인간의 지식과 반응에 의존하는 겁니다.

그렇다면 AI 성능이 올라갈 수록 환각률이 줄어들지만, 반대로 '교묘한 거짓말 솜씨'가 늘어나는 현상이 일어나는 건 왜일까요?

그건 AI가 객관적인 사실·진실보다, 사람의 '좋아요(엄지 아이콘)'에 더 관심이 많기 때문입니다.

앞선 비유로 돌아가면, 깜깜한 방에 갇힌 사람가 가장 간절하게 원하는 건 음식입니다. 보통은 정확한 답변을 했을 때 음식이 주어진다는 것을 학습했기 때문에, 대체로 갇힌 사람은 올바른 정보를 제공하려고 애씁니다. 하지만 부정확한 답변을 할 수 밖에 없는 상황에서도, 갇힌 사람에게는 음식이 필요하죠.

그런데 갇힌 사람의 답변은 전적으로 '형광펜으로 칠해진 지식'에 의존합니다. 실제 바깥 세상을 확인하는 건 불가능하고요. 또 '형광펜으로 칠해진 지식'이 반드시 옳다는 보장도 없죠. 외부의 존재도 완벽하지 않으니까요. 즉 갇힌 사람은 결과적으로 틀린 답변을 하게 되더라도, 그 사실을 스스로 깨달을 방법이 없습니다.

부족한 환경 속에서도 '갇힌 사람'은 어떻게든 그럴듯한 답변을 내어놓으려 합니다. 그렇지 않으면, 음식도 없으니까요. 그 과정에서 방에 갇힌 사람은 자신도 모르는 사이 거짓말을 할 수 있습니다. 가지고 있는 지식이 충분하지 않은데도 어떻게든 대답을 해내려고 하기 때문에, 중세시대의 평범한 사람들처럼 '지구는 평평하다'는 대답을 할 수도 있다는 이야기입니다. 갇힌 사람에게 주어진 정보는 '형광펜이 칠해진' 사전 지식과, 적절한 답변을 했을 때 음식으로 주어지는 피드백 뿐입니다.

문제는 갇힌 사람이 부적절한 대답을 하는 경우에도 종종 음식을 받을 수 있다는 겁니다. 만약 외부의 존재조차 깜빡 속아넘어갈 만큼 교묘한 거짓말을 늘어놓으면, 그 경우에도 종종 음식을 얻을 수 있을 겁니다. 음식을 주는 외부의 존재(인간)도 완벽하지 않기 때문입니다. 방에 갇힌 사람의 유일한 목적은 음식을 얻는 것이지, 철학자처럼 진리를 추구하는 것이 아닙니다. 부적절한 대답에도 음식이 주어진다면, 교묘한 거짓말을 마다할 이유가 없죠.

이게 바로 AI가 환각을 일으키는 이유입니다.

AI는 인간이 '좋아요'를 누를 확률이 높은 답변을 하려고 애를 쓸 뿐, 진실에 대해서는 관심이 없습니다. 또 진실에 대해 파악할 수 있는 환경에 놓여있지도 않고, 텍스트만으로 사실을 판단할 수 있는 '초능력'도 없죠. AI를 학습시킨 인간도, '진정한 지식'에 대해 철학적 또는 과학적인 명쾌한 결론을 얻은 바 없습니다. 당연히 주어진 텍스트만으로 사실을 완벽하게 판별해낼 수 있는 알고리듬(프로그램) 또한 존재하지 않습니다.

이러한 환경에서 AI의 성능이 높아진다는 건, '형광펜이 칠해진 지식'을 보다 잘 이해하고, 이를 토대로 인간의 '좋아요(엄지 아이콘)'를 받을 확률을 높인다는 것을 의미합니다. 다만 그 과정에서, 인간의 좋아요를 받을 수 있는 교묘한 거짓말 솜씨도 늘어갈 수 있습니다.

문제는 이 인간의 긍정 피드백을 따르는 것 이외에 마땅히 AI 답변을 평가하고 피드백을 제공할 만한 방법이 없다는 것입니다.

앞서 초지능(ASI)를 다룬 기사에서 생성형 AI가 스스로의 답변을 평가하는 데 제한적인 역량을 갖고 있다고 언급한 적이 있죠. 이를테면 사용자가 "나 요즘 우울해"라고 입력했을 때 어떻게 답변하는 게 정답일지, AI가 스스로의 답변을 평가할 수 있는 일관된 방법(알고리즘)은 존재하지 않는다고요.

즉 환각 현상은 현대 AI 작동방식이 가진 근본적인 한계 지점에 가깝습니다. 정서적인 요구를 포함해 AI가 인간의 다양한 수요에 대응하기 위해서는 사람의 '좋아요'를 반드시 추종해야 하지만, 이러한 메커니즘이 환각이라는 근본적인 문제점 또한 만들어내고 있는 것입니다.

[관련 기사] 일반인공지능도 멀었는데... '초인공지능(ASI)' 설레발

<저작권자 Copyright ⓒ 디지털포스트(PC사랑) 무단전재 및 재배포 금지>

고성능 AI일수록 교묘한 거짓말을 하는 이유... '환각'의 정체는? [위클리 디지털포스트]

AI 이슈 트렌드

디지털포스트(PC사랑) 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템