컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
ITWorld 언론사 이미지

‘스케일링 법칙’의 한계를 돌파하는 차세대 AI 훈련 접근법

ITWorld
원문보기

미국이 주도하고 있다고 여겨졌던 AI 분야는 딥시크 R1으로 인해 혼란에 빠졌다. 그러나 R1 역시 기존 모델과 동일한 한계를 상당 부분 공유하고 있기 때문에 AI의 현재 한계를 넘어서는 근본적인 혁신이 필요하다. 모델과 관련한 정확한 비용을 두고 논란이 이어지고 있지만, R1의 출시는 대형 기술 기업 외부에서도 혁신의 여지가 있음을 분명히 보여줬다.


현재 AI 모델은 점점 더 높은 연산 한계에 부딪히고 있다. 모델 크기의 증가 속도는 무어의 법칙과 AI 훈련용 칩의 발전 속도를 크게 앞지르고 있다. 대형 모델의 훈련 비용은 칩 비용으로 인해 수천만 달러에 달할 수 있다. 이런 문제는 일리야 수츠케버를 포함한 주요 AI 엔지니어들도 인정한 바 있다. 비용이 지나치게 높아지면서 앤트로픽은 클로드 모델을 업데이트하는 비용이 초기 개발 비용과 맞먹을 수 있다고 추정하고 있다. 아마존과 같은 기업은 차세대 AI 모델 구축 수요를 따라가기 위해 AI 데이터센터 건설에 수십억 달러를 투자하고 있다.


딥시크는 무한정 연산 자원을 투입하는 것이 유일한 해결책이 아님을 보여줬다. 최첨단 모델 개발에 따른 막대한 비용을 줄이기는 했지만, 여전히 기존의 딥러닝 패러다임 내에 머물러 있고 전통적인 모델 훈련 기법을 최적화하는 방식에 불과하다. R1을 포함해 현재 업계가 보유한 모든 모델은 ‘스케일링 법칙의 한계’에 다다르고 있다.


지금의 AI 연구는 효과적인 방법을 어둠 속을 더듬듯 찾아내고, 그 방식을 극한까지 밀어붙인 후, 광범위한 배포 이후에야 환각 같은 부작용 해결 방법을 고민하는 상황에 가깝다. 전자기학이나 맥스웰 방정식과 같이 연습과 이론을 조화시켜야 하는 다른 과학 분야와는 대조적이다.


그러나 어쩌면 이런 접근 방식이 꼭 필요하지 않을 수도 있다. AI의 작동 원리에 대한 더 깊은 기초적 이해가 있다면, 현재보다 훨씬 적은 에너지와 연산 자원으로 AI 모델을 훈련·배포할 수 있는 새로운 방식을 모색할 수 있다. 이를 통해 다른 과학 분야와 마찬가지로 AI에도 더욱 엄격한 원칙 기반 접근법을 적용할 수 있을 것이다.


필자는 캘리포니아대학교 샌디에이고(UCSD)의 엔다우드 펠로우로서 지난 5년간 이 문제를 해결하는 데 집중했다. 그 과정에서 얻은 결론은 다음과 같다.


심층 신경망의 유효 수명은 끝을 향해 가고 있다


최근 AI가 대중의 주목을 받고 있지만, 그 역사는 50년 이상 거슬러 올라간다. 필자가 속한 연구 분야는 여러 차례 AI에 대한 관심히 급격히 식는 ‘AI 겨울’을 겪어 왔다. 이는 현재의 뜨거운 열풍과는 극명한 대조를 이룬다.


가장 초기의 AI 겨울은 프랭크 로젠블랫의 퍼셉트론(perceptron) 머신과 관련 있다. 오늘날 거의 모든 ML 모델은 이 퍼셉트론 개념에 뿌리를 두고 있다. 그러나 마빈 민스키가 퍼셉트론의 한계를 지적하는 책을 출간하면서 로젠블랫의 연구는 평가절하됐고, 이는 신경망 연구와 자금 지원이 급격하게 감소했다. 그러나 이후 더 크고 복잡한 퍼셉트론이 등장하면서 상당수 문제가 해결되었음이 밝혀졌고, 로젠블랫의 연구는 UCSD에서 재평가받았다. 이는 제프리 힌튼, 데이빗 럼멜하트, 로널드 J. 윌리엄스가 1986년 발표한 역전파 연구로 이어져 현대 AI의 초석이 마련됐다.


상업적 발전을 살펴보면, 결국 ‘쓰라린 교훈(The Bitter Lesson)’에 의해 지배되고 있음을 알 수 있다. 엔비디아의 CUDA는 GPU에서 효율적인 텐서 연산을 가능하게 했고, 알렉스넷(AlexNet) 같은 딥러닝 모델은 다양한 분야에서 전례 없는 성과를 거뒀다. 그 결과, ML 분야에서 경쟁하던 다양한 접근법들은 점차 사라지고, 딥러닝에 단순히 더 많은 연산 자원을 투입하는 방식으로 수렴하게 됐다. 쓰라린 교훈의 가장 대표적인 사례는 지난 10년 동안 놀라운 확장성을 보여준 LLM이다.


AI가 정말로 인공일반지능(Artificial General Intelligence, AGI)에 도달할 수 있을까? 즉, 단순히 더 많은 매개 변수를 추가하고 훈련된 클러스터에 더 많은 GPU를 추가하는 방식으로 영화 <블레이드 러너>나 <2001: 스페이스 오디세이>에 등장하는 전형적인 AI 시스템을 구현할 수 있을까?


스케일링만으로는 진정한 지능에 도달할 수 없다


UCSD에서 필자가 수행한 연구는 단순한 모델 확장이 진정한 지능으로 이어지지 않을 것이라는 믿음에 기반한다. 그리고 오픈AI 같은 주요 AI 연구소와 프랑수아 숄레 같은 석학들의 보고를 보면 지금까지 딥러닝에 접근해 오던 방식이 한계에 부딪혔다는 점은 점점 더 명확해지고 있다. “이제 모두가 ‘넥스트 빅 씽(the next big thing)’을 찾고 있다”라는 수츠케버의 말은 현재의 AI 연구가 직면한 현실을 정확히 짚어준다.


우리가 씁쓸한 교훈을 망각하고 있는 건 아닐까? 오픈AI의 o3처럼 LLM에 강화 학습을 적용하는 기법조차 엄청난 연산 자원이 필요하다. 만약 우리가 학습에 대한 ‘모든 것을 설명하는 이론’을 먼저 이해하고, 그 원칙에 기반해 연구를 집중한다면 어떨까? 단순한 스케일링이 아닌, 보다 근본적인 원리를 찾는 것이 더 나은 길이 아닐까?


UCSD에서 우리는 단순한 블랙박스 방식의 근사 모델이 아니라 신경망이 실제로 어떻게 학습하는지를 이해하는 기술을 개발했다. 딥러닝 모델은 인간 뉴런과 유사한 인공 뉴런을 활용해 데이터를 필터링하고, 역전파를 통해 특징(feature)을 학습하는 방식으로 동작한다. (역전파 자체는 생물학적 신경망에 존재하지 않는 개념이다.) 이런 특징 학습(feature learning) 메커니즘 덕분에 AI는 금융부터 의료까지 다양한 분야에서 성공을 거둘 수 있었다. 그러나 이 과정이 반드시 지금의 방식이어야 할까? 우리는 기존의 신경망 훈련 방식을 해체한 뒤, 더 나은 원리에 기반해 재구성할 필요가 있다.


예를 들어, 고양이와 개를 구별해야 한다고 가정해 보자. 인간의 뇌는 고양이의 수염과 같은 특징을 학습한 후 찰나의 순간에 판단을 내린다. 반면, 전통적인 신경망은 역전파를 통해 인공 뉴런을 조정하면서 학습한다. 이 방식은 생물학적 학습 과정과는 다르며, 불필요한 계산과 비효율성을 초래한다. 우리는 AI가 필수적으로 수행해야 하는 ‘특징 학습’ 과정만 분리해 활용할 수 있다. 딥러닝에서 당연하게 여겨지는 불필요한 요소를 제거하고 본질적인 학습 원리에 집중한다면, 더 효과적인 AI 시스템을 만들 수 있다. 이런 접근 방식이 바로 완전히 새로운 ‘역전파 없는(backpropagation-free) AI 스택’의 기반이다. 이 방식은 현재 최첨단 AI 모델보다 성능이 몇 배나 뛰어난 AI 시스템을 가능하게 한다.


딥러닝의 비효율성과 이론적으로 충분히 입증되지 않은 요소를 배제함으로써, 우리는 딥러닝 한계를 넘어서는 진정으로 지능적인 차세대 AI로 나아가는 길을 열 수 있다. 학습이 어떻게 이루어지는지를 근본적으로 이해하고, 해석 가능성과 효율성을 고려한 모델을 처음부터 다시 설계해야 한다. 특히 금융과 의료처럼 고위험 분야에서는 AI의 불확실한 행동이 용납될 수 없다. 그 이상의 것이 필요하다. 지난 10년 동안 딥러닝은 놀라운 발전을 이루었지만, 이제는 딥러닝을 넘어선 AI의 다음 진화를 구축해야 할 때다.


이런 사고방식과 연구가 미국이 AI 주도권을 중국으로부터 되찾고, 차세대 AI 혁신을 선도할 수 있는 핵심 동력이 될 것이다.


*Cyril Gorlla는 CTGT의 공동 창립자이자 CEO다.
dl-itworldkorea@foundryco.com




No Author editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1브리지트 바르도 별세
    브리지트 바르도 별세
  2. 2한학자 통일교 조사
    한학자 통일교 조사
  3. 3박근형 이순재 별세
    박근형 이순재 별세
  4. 4김종국 위장 결혼 의혹
    김종국 위장 결혼 의혹
  5. 5손흥민 리더십
    손흥민 리더십

이 시각 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD