컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
연합뉴스 언론사 이미지

[K-VIBE] 임기범의 AI혁신 스토리…우리가 오늘 쓴 글에 AI 미래 있다-②

연합뉴스 이세영
원문보기
[※ 편집자 주 = 한국국제교류재단(KF)의 지난해 발표에 따르면 세계 한류 팬은 약 2억2천500만명에 육박한다고 합니다. 또한 시간과 공간의 제약을 초월해 지구 반대편과 동시에 소통하는 '디지털 실크로드' 시대도 열리고 있습니다. 바야흐로 '한류 4.0'의 시대입니다. 연합뉴스 동포·다문화부 K컬처팀은 독자 여러분께 새로운 시선으로 한국 문화를 바라보는 데 도움이 되고자 전문가 칼럼 시리즈를 준비했습니다. 시리즈는 매주 게재하며 K컬처팀 영문 한류 뉴스 사이트 K바이브에서 영문으로도 보실 수 있습니다.]

임기범 서울과학종합대학원 대학교 객원교수[본인 제공]

임기범 서울과학종합대학원 대학교 객원교수
[본인 제공]



지난 칼럼에 이어 데이터의 고갈에 대한 이야기를 이어가고자 한다. 인공지능 시대가 본격화하면서 정제된 데이터가 모자라다 보니 AI 업계는 해법으로 '합성 데이터'(synthetic data)를 쓰고 있다.

여기에 치명적인 함정이 있다. 영국·캐나다 공동 연구진은 AI가 생성한 데이터만으로 다시 AI를 학습시키는 과정을 반복하면 '모델 붕괴'(model collapse)라는 현상이 발생한다는 결과를 발표했다. 간단히 말해, 현재 모델에 존재하던 작은 편향·오류가 합성 데이터를 통해 다음 세대로 전달되면서 점점 증폭되는 것이다.

예를 들어, 특정 주제에 대한 아주 미세한 왜곡이 1세대 모델 안에 있다고 가정해 보자. 이 모델이 만든 텍스트를 대량으로 모아 2세대 모델을 학습시키면, 그 왜곡은 조금 더 강하게 반영된다. 다시 그 모델이 만든 텍스트로 3세대를 학습하면 왜곡은 더 커진다. 이 과정을 몇 번만 반복하면, 처음에는 거의 눈에 띄지 않던 사소한 오류가 어느 순간 전체 세계관을 뒤틀어 놓는 수준으로 자라난다.

스탠퍼드 대학과 여러 연구기관이 참여한 'AI 인덱스 리포트'에서도 비슷한 결과가 나온다. 합성 데이터만으로 학습한 모델과, 실제 인간 데이터와 합성 데이터를 함께 쓴 모델을 비교했을 때, 거의 모든 성능 지표에서 '실제 데이터가 섞인 모델'이 더 좋은 결과를 보였다. 합성 데이터는 분명 유용한 보조 수단이고, 특히 드문 상황이나 극단적인 케이스를 인위적으로 만들어내는 데 강점을 가진다. 그러나 인간이 만든 데이터를 완전히 대체할 수 있는 만능열쇠는 아니라는 결론이다.

◇ 편리함의 대가


이 지점에서 우리의 일상이 이 문제와 어떻게 연결되는지 돌아볼 필요가 있다. 지금 우리는 보고서를 쓸 때 AI에게 초안을 부탁하고, 이메일 문장을 다듬기 위해 AI에게 문장을 붙여넣고, 회의록·블로그 글·SNS 캡션을 생성형 AI에 맡기는 일이 낯설지 않다. 일부 연구자는 논문의 서론과 초록을 AI로부터 받아 사람이 다듬는 방식을 택하고 있다.

하정우 대통령실 AI미래기획수석도 "사람이 만든 데이터로 모델을 학습하면 사람의 행동양식이 그대로 AI에 녹아들 것"이라고 말했다.

역설적이지만, 바로 그 '인간다움'이 AI에게는 필수적인 영양분이다. 인간의 창의적인 발상, 우회로를 찾는 사고, 불완전한 표현과 실수, 논리의 비약과 재도약, 다양한 문화와 언어가 뒤섞인 흔적이 데이터로 축적될 때, AI는 보다 풍부하고 유연한 모델로 성장할 수 있다.


그런데 만약 우리가 점점 더 많은 글쓰기를 AI에게 맡긴다면 어떻게 될까. 어느 순간부터 인터넷을 채우는 텍스트의 상당 부분이 'AI가 생성한 문장'이 되고, 다음 세대 AI는 그 데이터를 다시 학습하게 된다. AI가 AI의 글을 학습하고, 그렇게 만든 모델이 또 다른 AI를 위해 데이터를 뽑아내는 순환 구조가 만들어진다. 앞서 말한 모델 붕괴의 조건이 서서히 갖춰지는 셈이다. 편리함을 위해 인간의 손으로 쓰여야 할 문장이 줄어드는 만큼, 미래 세대 AI가 먹고 자라야 할 양질의 '인간 데이터'도 줄어든다.

한글 데이터의 위기는 더 심각하다. 한국어 사용자 입장에서는 데이터 문제의 심각성이 한층 더 크다. 전 세계에서 영어는 온라인 콘텐츠의 상당 비중을 차지하지만, 한국어는 사용 인구가 상대적으로 적어 애초에 확보할 수 있는 데이터 풀 자체가 작다. 영어권에는 '커먼크롤'(Common Crawl) 같은 거대한 웹 아카이브가 있어, 연구자와 기업이 비교적 자유롭게 텍스트를 활용할 수 있다. 반면 한국어에는 그런 규모와 범위의 공용 데이터 세트가 거의 없다.

실제로 국내 한 AI 기업은 한국어 학습 데이터를 확보하기 어려워 인도네시아어 데이터를 일본어로 번역한 뒤, 다시 한국어로 번역해 사용하는 우회 전략을 택한 적이 있다. 여러 번 번역을 거치는 과정에서 의미가 훼손되고, 뉘앙스가 틀어지며, 자연스러운 표현과는 거리가 생길 수밖에 없다.


하지만 원천 한국어 데이터가 절대적으로 부족하다 보니, 그런 비효율을 감수하면서까지 데이터를 늘려야 했던 것이다.

다행히 최근 공개된 일부 다국어 모델들은 한국어 비중을 크게 늘리는 방향으로 학습을 진행하고 있다. 글로벌 빅테크 기업 역시 한국 시장의 중요성을 인식하고 한국어 지원을 강화하는 추세다. 그러나 외부에서 만들어낸 모델이 한국어를 '잘하게' 되는 것과, 한국 내부에서 스스로 데이터와 모델을 키워나가는 것은 다른 문제다. 장기적으로는 한국어로 작성된 양질의 텍스트·코드·연구·기사·서사 콘텐츠가 꾸준히 축적되는 구조가 필요하다.

◇ 우리가 해야 할 일

그렇다면 우리는 무엇을 해야 할까. 답은 의외로 단순하다. 계속 쓰면 된다.

블로그에 생각을 정리하고, 상품을 사용한 후 리뷰를 남기고, 소셜미디어에 의견을 올리고, 긴 글이 필요하다면 기사와 에세이, 논문을 작성하는 일을 멈추지 않는 것이다.

AI에게 모든 것을 맡기는 대신, 사람이 글의 주제와 방향을 정하고 초안을 작성한 뒤, AI에게는 참고 자료를 찾거나 표현을 다듬는 조력자 역할만 맡길 수도 있다.

처음부터 끝까지 AI가 쓴 문장을 그대로 내 이름으로 내보내는 것이 아니라, AI가 제안한 내용을 사람의 비판적 판단과 수정을 거쳐 최종 결과물로 만드는 방식이다. 이 과정에서 생성되는 데이터는 단순히 'AI 출력'이 아니라, 인간의 사고와 판단, 창의적인 선택이 반영된 새로운 데이터가 된다. 그것이 바로 다음 세대 AI의 양식이 된다.

이것은 AI 발전을 위한 의무이기 이전에, 스스로를 위한 투자이기도 하다. 글을 쓰고, 그림을 그리고, 코드를 짜고, 연구를 설계하는 과정은 곧 자기 생각을 구조화하고 세계를 해석하는 훈련이다. 그 과정을 통째로 AI에게 넘겨버리면, 단기적으로는 시간을 아낄 수 있지만 장기적으로는 우리의 인지 능력과 비판적 사고력, 독창성이 퇴화할 위험이 있다.

AI 시대의 역설은 명확하다. AI가 발전하려면 인간이 만든 데이터가 필요한데, AI가 너무 편리해질수록 인간은 데이터를 만들지 않게 된다. 일론 머스크와 데미스 허사비스가 경고한 '데이터 고갈'은 그래서 기술적 문제이자 문화적·사회적 문제다. 우리는 지금, AI를 어떻게 사용할 것인가에 따라 미래 세대 인공지능의 수준과 방향을 결정짓는 시대를 살고 있다.

AI는 인간을 대체하는 존재가 아니라 보완하는 도구여야 한다. 그리고 그 도구가 계속 발전하려면, 인간의 창작 활동과 기록, 시행착오가 멈춰서는 안 된다. 편리함에 취해 모든 것을 AI에게 맡기는 대신, 인간 고유의 질문과 상상력, 표현을 유지하면서 AI를 현명하게 활용하는 지혜가 필요하다.

결국 AI의 미래는 인간이 얼마나 인간답게 남아 있느냐에 달려 있다. 우리가 계속 생각하고, 쓰고, 논쟁하고, 창작하는 한, AI는 그 위에서 더 나아질 수 있다. GPT-5.x와 그 이후 세대 모델들이 잇달아 발표되는 지금, 조용히 이런 질문을 던져볼 만하다.

"오늘 나는 무엇을 스스로 썼는가."

그 한 줄 한 줄이, 앞으로 태어날 AI가 배워 자라게 될 양식이기 때문이다.

임기범 인공지능 전문가

▲ 서울과학종합대학원 대학교(aSSIST) 객원교수. ▲ 현 AI경영학회 상임이사 겸 학술분과 위원장. ▲ ㈜나루데이타 CTO 겸 연구소장. ▲ ㈜컴팩 CIO. ▲ 신한 DS 디지털 전략연구소장 역임.

seva@yna.co.kr

▶제보는 카카오톡 okjebo
▶연합뉴스 앱 지금 바로 다운받기~
▶네이버 연합뉴스 채널 구독하기
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1에스파 닝닝 홍백가합전 불참
    에스파 닝닝 홍백가합전 불참
  2. 2강선우 공천헌금 의혹
    강선우 공천헌금 의혹
  3. 3전현무 기안84 대상
    전현무 기안84 대상
  4. 4삼성생명 신한은행 경기 결과
    삼성생명 신한은행 경기 결과
  5. 5심현섭 조선의 사랑꾼
    심현섭 조선의 사랑꾼

연합뉴스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD