본문 바로가기

뉴스

주가 하락에도 젠슨 황은 웃고 있다? 엔비디아의 '차세대 AI'에 주목해야 하는 이유 [스프]

0
댓글0
[오그랲]
SBS


SBS




세상 복잡한 이야기들, 5가지 그래프로 명쾌하게 풀어내는 오그랲입니다.


독자 여러분 안녕하세요? 지난주 엔비디아의 최대 연례행사인 GTC가 있었죠. 예전이라면 사람들은 젠슨 황의 한마디에 열광하고 시장은 뜨겁게 반응하면서 주가가 상승곡선을 그리곤 했는데, 최근엔 그렇지 않더라고요. 이번 GTC 이후에도 엔비디아 주가는 큰 변화 없이 횡보 중입니다.

사실 엔비디아와 AI 관련해서 기사들은 나오고 있는데, 지금과 비교해서 앞으로 뭐가 달라진다는 건지도 잘 모르겠고, 새롭게 등장하는 용어들도 많아서 헷갈리기만 하죠. 그래서 오늘 오그랲에서는 도대체 엔비디아가 꿈꾸는 미래가 무엇인 건지 다양한 그래프를 통해 살펴보려고 합니다.


알아두면 (언젠가) 쓸모 있을 AI 인물사
오늘은 영상 전반에 걸쳐서 등장할 수많은 사람들과 기업들을 한 번 정리하고 시작하려고 합니다. AI의 역사를 곁들이면서 말이죠.

이야기의 시작은 페이페이 리부터입니다. 지난 팔란티어 편에서 '딥러닝의 대모'로 불리는 페이페이 리 이야기를 간단히 했었는데, 기억나시나요? 페이페이 리에게 '딥러닝의 대모'라는 별명이 붙게 된 이유 중 하나는 바로 '이미지넷'이라는 프로젝트였어요.

때는 2006년, 스탠퍼드 대학교에서 컴퓨터 비전 연구실을 이끌던 페이페이 리가 컴퓨터 비전을 더 발전시키겠다는 마음으로 1,000만 건이 넘는 이미지 데이터를 무료로 제공합니다. 이 프로젝트가 바로 이미지넷이었죠. 이미지넷에서는 단순히 데이터만 제공해 주는 게 아니라 이 이미지를 컴퓨터가 잘 분류해 내는지를 경쟁하는 대회도 운영했어요.

세월이 흘러 2012년, 이미지넷 대회에서 세상을 놀라게 한 SuperVision이라는 팀이 등장합니다. SuperVision이 도대체 무얼 했길래 세상이 떠들썩했는지, 그래프를 통해 살펴볼게요.


SBS


보통 다른 팀들은 분류를 잘 해내더라도 프로그램 오답률이 20%에서 30%였습니다. 그런데 SuperVision은 단 15.3%의 오답률을 기록한 겁니다. 너무나 급격한 성능 발전에 많은 사람들이 놀랐어요. 이 팀을 이끈 사람은 바로 AI의 대부 제프리 힌턴. 제프리 힌턴은 본인 연구실 소속의 알렉스 크리제브스키, 일리야 수츠케버와 팀을 이루었는데, 이들은 다른 팀들과 달리 딥러닝이라는 방식을 사용했습니다. 그리고 딥러닝을 프로그래밍하는 데에는 엔비디아의 GPU와 CUDA 소프트웨어를 활용했고요. CPU와 비교해서 GPU는 수많은 연산을 병렬로 수행하는 데 매우 탁월한 성능을 보여줬습니다. 그것을 SuperVision이 대회에서 증명해 낸 거죠.

이들이 만든 AlexNet이 압도적인 실력으로 우승하자, 딥러닝은 컴퓨터 비전과 AI 영역에서 주류로 떠오르게 됩니다. 뿐만 아니라 엔비디아의 GPU와 CUDA 생태계가 날개를 펴기 시작했죠. 이 세 사람은 이듬해에 바로 AI 스타트업 DNN리서치를 만들어요. 그리고 이 스타트업을 발 빠르게 구글이 먹어버리죠. 구글이 당시 AI에서 가장 핫한 연구진을 가져가버리자, 뒤처질 수 없었던 페이스북도 부랴부랴 움직였습니다. 페이스북의 AI를 책임지고 연구할 연구소 FAIR를 세우고 또 다른 AI 석학인 얀 르쿤을 소장으로 앉힌 겁니다. 페이스북은 얀 르쿤을 모셔오기 위해 그가 거주하고 있는 뉴욕 시에 연구소를 만들어줄 정도로 지극 정성이었어요. 참고로 얀 르쿤은 과거 1987년부터 88년까지 제프리 힌턴 연구실에서 공부한 제자이기도 해요.

구글의 제프리 힌턴, 페이스북의 얀 르쿤 그리고 요슈아 벤지오까지, 이들은 딥러닝 연구에서 때로는 선의의 경쟁을, 또 때로는 협업하면서 AI 연구를 진행합니다. 요슈아 벤지오는 90년대 AT&T Bell 연구소에서 얀 르쿤과 함께 공부했다는 인연이 있는데, 참고로 이재용 삼성전자 회장이 요슈아 벤지오에게 종종 자문을 구한다고 하죠. 삼성전자는 2017년에 요슈아 벤지오가 있는 캐나다 몬트리올에 AI 연구소를 설립하기도 했습니다. 그리고 이 세 사람은 2018년 딥러닝 연구에 기여한 업적으로 컴퓨터과학계의 노벨상인 튜링상을 공동 수상하게 됩니다.


SBS


이렇게 좋은 일만 있으면 참으로 좋겠지만 AI 기술이 발전해 오면서 이들 사이에서도 점점 입장 차이가 생기기 시작해요. 일단 제프리 힌턴은 2023년 구글을 퇴사하면서 수십 년의 AI 연구를 후회한다고 밝혔어요. 최근의 AI 기술 발전이 너무 빠르다면서, 이 속도라면 근 미래에 AI 가 인간의 통제권을 빼앗을 거라 경고했죠. 요슈아 벤지오와 일리야 수츠케버 역시 AI의 위험성에 공감하는 입장입니다.

반면 얀 르쿤과 페이페이 리는 다릅니다. AI를 잘 활용한다면 충분히 인간을 이롭게 할 수 있다는 입장이죠. 특히 얀 르쿤은 현재 가장 뛰어난 LLM도 고양이만 못하다고 비판하기도 했어요. 얀 르쿤은 동물보다도 못한 AI에 대한 우려는 과장되었다면서 규제보다는 기술 개발이 필요하다고 목소리를 높이고 있습니다. 오늘 이야기할 새롭게 등장할 AI의 모습, 그리고 엔비디아와 젠슨 황의 큰 그림을 이해하려면 얀 르쿤과 페이페이 리의 입장을 조금 더 살펴봐야 합니다.


언어모델의 한계를 뛰어넘을 월드모델
얀 르쿤은 왜 지금의 AI에 대한 우려가 과장되었다고 생각할까요? 그건 바로 지금의 모델이 Large Language Model, 언어모델이기 때문입니다. 얀 르쿤은 LLM 가지고는 인간 수준의 AI 구현은 어렵다고 단언해요. 왜냐하면 인간과 동물은 현실 세계와 끊임없이 상호작용을 하는데 그 과정에서 얻는 지식 대부분이 비언어적이라는 거죠.

하지만 LLM은 언어를 대량으로 학습합니다. 언어를 학습한 LLM은 끽해봐야 인간의 지능 일부를 흉내 내는 것일 뿐 이렇게 해서는 AGI에 도달하지 못한다고 주장하는 거죠. 그러다 보니 얀 르쿤은 지금 우리 사회가 갖고 있는 AI에 대한 우려도 기우에 그칠 거라고 생각하고 있습니다. 일단 얀 르쿤이 트윗에 올렸던 내용을 가지고 한 번 비교해 볼게요.


SBS


현재 인터넷에서 공개적으로 이용할 수 있는 고품질의 텍스트는 약 10조 개의 토큰 정도로 알려져 있습니다. 여기서 말하는 토큰은 언어모델이 텍스트를 이해하고 생성해 내는 기본 단위를 의미합니다. 이 10조 개의 토큰을 우리가 읽는다고 치면 얼마나 시간이 걸릴까요? 우리 인간이 하루 8시간, 분당 250개의 단어를 읽는다고 치면 17만 년이 넘게 걸립니다. 토큰 하나당 2바이트로 계산하면 LLM이 처리할 수 있는 텍스트 데이터량은 20조 바이트가 나올 겁니다.


SBS


이번엔 4살짜리 꼬마 어린이가 처리하는 시각 정보량을 계산해 볼게요. 4살 어린이의 인생 전체에서 깨어 있는 시간은 1만 6,000시간 정도로 알려져 있습니다. 그리고 우리 눈에는 각각 100만 개의 시신경 섬유가 존재하고, 이 섬유는 초당 약 10바이트의 데이터를 전송하죠. 계산해 보면 4살 꼬마 아이가 처리해 온 시각 정보량은 1,152조 바이트입니다. LLM의 텍스트 데이터의 50배 차이가 나죠.

이렇게 정보량이 차이가 나니 텍스트 데이터 기반의 LLM으로는 절대 인간 수준의 AI는 될 수 없다는 게 얀 르쿤의 입장입니다. 그래서 얀 르쿤은 언어를 넘어서 AI 시스템이 세상의 작동 방식을 배울 필요가 있다고 주장합니다. 어떻게요? 바로 월드모델로 말이죠.

2018년 구글에서 '월드모델'이라는 이름의 논문이 발표됩니다. 이 논문에서는 우리 인간이 세상을 인지하듯이 AI를 학습시켜 보자고 제안해요.

한 번 생각해 볼까요? 단 한 번도 해보지 않은 자동차 게임을 해본다고 해볼게요. 처음엔 조작 방법을 모르니까 이것도 눌러보고, 저것도 눌러볼 겁니다. 방향키를 조작하면 자동차가 움직이고, A 버튼을 누르면 가속이 되고, B 버튼을 누르면 브레이크가 되고... 이런 과정을 거치면서 우리 뇌는 내가 어떤 행동을 하면 게임 속 환경에 어떤 변화가 생기는지 인지하고 이해하게 될 겁니다. 그리고 이런 경험들이 모이면 자동차 게임에 대한 추상적 모델이 우리 뇌 속에 만들어지겠죠?


SBS


이 방식을 AI에 적용한 게 바로 월드모델입니다. AI가 시각적으로 본 정보를 AI의 뇌 속, 꿈속에서 학습시키는 거죠. 다시 말하면 AI를 실제 세계에서 훈련하지 않고 메타버스 같은 가상의 환경에서 훈련시키는 겁니다. 구글 연구진은 이 모델로 실험을 돌려봤고, 그 결과는 압도적으로 월드모델이 높은 점수를 받았어요.

이 월드모델의 등장은 많은 사람들에게 깊은 영감을 주었어요. 그리고 2024년, 여기서 페이페이 리가 다시 등장합니다. 페이페이 리는 지난해 월드랩스라는 스타트업을 설립했는데, 결과물을 하나 내놓지 못했는데 무려 2억 3,000만 달러, 우리나라 돈으로 3,300억 원이 넘는 투자금이 모이죠.

페이페이 리가 월드랩스에서 하겠다는 것, 바로 월드모델입니다. 현재 월드랩스 홈페이지에 들어가 보면 월드랩스에서 내놓은 서비스는 2D 이미지를 3D 이미지로 바꿔주는 기능뿐입니다. 애걔? 싶기도 하고, 이게 뭐 대단한 기술인가 싶지만 생각해 볼까요? 단 한 장의 이미지만으로 가상의 3D 세상을 만들고, 이렇게 만들어진 3D 세상에 기본적인 물리 규칙이 적용된다면 어떨까요? 이 공간에서 AI 다양한 학습을 진행한다면 추후 AR이나 VR 그리고 자율주행과 로봇에도 이 기술을 활용할 수 있게 되는 겁니다.

언어 그 이상의 학습이 필요하다고 주장한 얀 르쿤도 월드모델을 꾸준히 발전시키고 있어요. 메타에서 공개한 모델 JEPA가 대표적이죠. 뿐만 아니라 구글과 오픈AI도 마치 시뮬레이션 게임을 닮은 월드모델을 지난해부터 공개하고 있습니다.


엔비디아와 젠슨 황은 웃고 있다
이런 흐름을 흐뭇하게 지켜보는 이가 있으니 바로 젠슨 황입니다. LLM 시대의 최대 수혜자를 뽑으라면 거의 모든 사람이 엔비디아를 이야기할 겁니다. 기업들은 더 좋은 성능의 모델을 만들어내기 위해 지금도 수많은 데이터들을 학습시키고 있고, 거기엔 엔비디아의 GPU이 사용되고 있어요.


SBS


Epoch AI에서는 전 세계에서 출시된 주요 AI 모델들의 훈련 데이터양을 DB에 쌓아서 공개하고 있는데, 그래프를 그려보면 이렇게 나옵니다. 성능을 높이기 위해 모델에 들어가는 데이터 양이 기하급수적으로 늘고 있죠. 만약 월드모델에선 어떻게 될까요? 월드모델은 이미지와 영상으로 학습을 하기 때문에 기존 언어모델보다 더 많은 GPU가 필요합니다.

물론 단순히 GPU 만으로 엔비디아가 만족하지 않을 겁니다. 그래서 젠슨 황은 월드모델을 활용할 수 있는 프로그램 코스모스를 지난 CES에서 이미 공개했죠. 엔비디아의 월드모델 플랫폼 코스모스는 아주 손쉽게 월드모델을 만들어줍니다. 문장을 넣거나, 이미지를 넣어서 가상의 월드를 만들 수 있어요. 이렇게 만들어진 가상의 월드는 물리 법칙이 적용되어 있고 이 안에서 다양한 시뮬레이션을 돌려볼 수 있게 되죠.


SBS


사실 다른 기업들은 이제 막 월드모델에 눈길을 주고 한 번 해볼까 하는 상황인데, 엔비디아는 월드모델을 만들 수 있는 코스모스를 매우 빠르게 발표했습니다. 왜 그랬을까요? 바로 CUDA의 경험 때문입니다.

2012년 제프리 힌튼의 SuperVision이 일으켰던 불꽃이 엔비디아의 GPU 판매량에 날개를 달아주었던 이유는 바로 CUDA가 있었기 때문입니다. 사실 GPU를 만드는 건 엔비디아뿐만이 아니거든요. AMD도 있죠. 하지만 딥러닝 연구 생태계에 CUDA 소프트웨어는 이미 자리가 잡힌 상태였어요. 이 생태계 위에서 많은 연구진들은 딥러닝에 뛰어들었고, 그러려면 엔비디아의 GPU를 사야 했던 겁니다. 이렇게 미리 선점한 생태계의 결과는 이렇게 나타나죠.


SBS


데이터센터 GPU 시장은 2024년 기준 1,250억 달러로 성장했는데 그중 엔비디아가 무려 92%를 차지하고 있습니다. AMD는 4%, 화웨이가 2%, 인텔이 1%, 나머지가 1% 수준에 불과하죠. CUDA에서 생태계 선점 효과를 이미 맛본 엔비디아가 차세대 모델인 월드모델에서도 비슷한 전략을 취하는 겁니다. "우리가 잘 만들어둔 코스모스에서 연구하세요! 여기서 월드모델 만들어서 사업하세요!"라고 세일즈를 하는 거죠.

그렇다면 코스모스가 지금 당장 필요한 산업군이 어디 있을까요? 바로 자율주행을 성공시키고 싶은 자동차 시장입니다. 자율주행을 위해선 AI가 다양한 상황에 대응할 수 있도록 많은 시도와 상황을 학습해야 합니다. 하지만 실제 도로에서 테스트하는 건 매우 위험할 수 있어요. 게다가 그 공간을 확보하고 활용하기 위해선 많은 돈과 시간이 들 거고요. 과거 자료긴 하지만 자율주행 차량의 안전성을 입증하기 위해선 500년이 걸린다는 연구 결과도 있을 정도죠.

하지만 월드모델과 함께라면 어떨까요? 가상으로 만들어진 월드에서 다양한 상황을 시뮬레이션해볼 수 있게 됩니다. 그 수많은 테스트를 AI가 학습한다면 안전한 자율주행 자동차를 만드는 데까지 드는 시간을 엄청나게 단축시킬 거고요. 그래서 지난주에 있었던 엔비디아 GTC 컨퍼런스에서 AI 자동차에 대한 내용들이 쏟아졌습니다.


엄청난 데이터가 필요한 월드모델. 안되면 남의 것도?
문장과 이미지만 넣고, '딸깍' 누르면, '뚝딱' 가상 세계를 만들어내는 코스모스. 이 모델은 기존의 텍스트 생성과 이미지 생성보다 고차원적인 일을 해내는 만큼 정말 엄청난 양의 데이터가 학습되었을 겁니다. 엔비디아는 총 2,000만 시간 분량의 동영상을 원시 데이터로 활용했다고 밝혔는데, 코스모스의 기술보고서를 살펴보면 총 1만 개의 H100 GPU를 석 달 돌려서 학습시켰다고 하죠.

여기서 말하는 2,000만 시간이 말이 2,000만 시간이지 정확히 감이 오지 않을 수 있어요. 그래서 계산을 해봤습니다. 2,000만 시간을 년으로 바꿔보면 2283.1년이 나옵니다. 그러니까 마케도니아 왕국과 이집트의 프톨레마이오스 2세가 싸우던 기원전 258년부터 지금까지의 시간인 거죠. 물론 2,000만 시간의 데이터 가운데 중복된 자료는 빼고, 또 쓸모없는 영상들을 빼더라도 역대 어느 모델들보다 데이터 양이 많은 겁니다.


SBS


학습 데이터셋을 분류해 보면 가장 많은 영역을 차지하는 건 자연 안에서 볼 수 있는 역학(Nature dynamics)이었어요. 이를테면 바람의 흐름이라든지 낙엽이 떨어지는 모습, 또 물체 간의 충돌과 강물의 흐름같이 자연계에서 발생하는 다양한 상호작용이 전체 학습 영상의 20%를 차지했죠. AI가 우리 실생활에서 확인할 수 있는 물리 법칙을 깨우칠 수 있도록 가장 많은 영상이 투입된 거로 보입니다.

뒤이어서 공간을 인식하고 탐색하는 영역과 손동작과 물체 조작이 각각 16%씩을 기록했어요. 이러한 영상들은 로봇 공학에 유용하게 쓰일 겁니다. 그다음으로 운전 영상이 11%로 4위를 차지했는데, 이 영상들은 당연히 자율주행에 활용되겠죠.

그런데 엔비디아는 이 카테고리 안에 어떤 영상들을 사용한 건지 공개를 일절 안 하고 있습니다. 문제는 코스모스 학습 데이터 안에 저작권을 침해한 영상이 다수 포함되어 있다는 의혹이 있다는 거죠. 기술, 인터넷 전문 언론사 404MEDIA의 단독 보도에 따르면 엔비디아는 유튜브와 넷플릭스 영상을 무단으로 크롤링해서 코스모스를 학습시켰어요.

(남은 이야기는 스프에서)



SBS



SBS



안혜민 기자 hyeminan@sbs.co.kr

▶ 네이버에서 SBS뉴스를 구독해주세요!
▶ 가장 확실한 SBS 제보 [클릭!]
* 제보하기: sbs8news@sbs.co.kr / 02-2113-6000 / 카카오톡 @SBS제보

Copyright ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

SBS 주요뉴스

해당 언론사로 연결

이 기사를 본 사람들이 선택한 뉴스

  • 서울신문“30만명 죽는다” 섬뜩 전망 나온 ‘이 나라’…최악 대지진 공포 성큼
  • 헤럴드경제“침대 밑에 괴물 있다” 아이 말 안 믿었는데…숨어있던 남성 발견 ‘충격’
  • 서울경제'푸틴 소유 추정' 5억짜리 방탄 리무진 모스크바서 '펑'···암살 의혹도 '활활'
  • 조선일보‘양말 애호가’ 美국방장관, 日총리 면담 때 고른 색깔은?
  • 뉴시스"리투아니아서 훈련 중 실종된 미군 3명 시신으로 발견"

쇼핑 핫아이템

AD