컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
한국일보 언론사 이미지

모니터 밖으로 나오는 AI…"피지컬 AI는 배고프다"[찐밸리 이야기]

한국일보
원문보기
엔비디아, 피지컬 AI 표준 선점 노력
구글 딥마인드·테슬라도 상용화 박차
피지컬 AI 시장규모 7경3,100조 원
'모라벡의 역설' 걸린 피지컬 AI 한계
학습량 "전체 현실세계 0.1% 미만"

편집자주

내로라하는 기술 대기업이 태동한 '혁신의 상징' 실리콘밸리. 다양성을 핵심 가치로 내세우지만 거주민 중 흑인 비율은 2%밖에 되지 않는다는 사실, 알고 계셨나요? 화려한 이름에 가려진 실리콘밸리의 다양한 얼굴을 '찐밸리 이야기'에서 만나 보세요.


엔비디아 부스에 설치된 로봇 팔. 화면 속 큐브를 그릇에 담는 게임을 반복하는 동안 엔비디아의 AI칩 블랙웰은 현실세계에서 조정하는 사람의 움직임을 학습한다. 실리콘밸리=박지연 특파원

엔비디아 부스에 설치된 로봇 팔. 화면 속 큐브를 그릇에 담는 게임을 반복하는 동안 엔비디아의 AI칩 블랙웰은 현실세계에서 조정하는 사람의 움직임을 학습한다. 실리콘밸리=박지연 특파원


#. 지난달 21일(현지시간) 미 캘리포니아 샌프란시스코 모스콘센터 '마이크로소프트(MS) 이그나이트 2025' 행사장에 마련된 엔비디아 부스에서 로봇 팔을 잡고 화면 속 주사위를 그릇에 담는 게임을 10차례 반복했다. 현실세계에서 조작하는 사람의 움직임을 소프트웨어가 학습하도록 하는 시뮬레이션이다. 관절의 각도를 틀거나 상하, 좌우, 앞뒤로 로봇 팔을 당기면 화면 속 고해상도 3차원(3D) 장면이 똑같이 움직였다.

이날 체험한 건 옴니버스 기반으로 구축된 엔비디아의 로보틱스 플랫폼 '아이작 랩'이다. 단순히 화면을 그려주는 게 아니라, 물리 기반 시뮬레이션과 고해상도 3D 장면을 실시간으로 생성·구동하는 렌더링 엔진이다. 옴니버스 플랫폼은 원래 3D 협업 및 시뮬레이션 플랫폼이지만, 로봇·자율주행·산업 디지털 트윈(가상 복제)을 지원하는 피지컬 AI 운영체제로 확장하고 있다.

앙헬 마타 엔비디아 옴니버스 개발 기술 엔지니어는 기자에게 "언뜻 주사위를 줍는 게임 같지만 피지컬 AI가 현실세계를 이해하기 위해 데이터를 모으는 과정"이라고 설명했다. 수많은 데이터는 어디에 모으냐고 묻자 책상 아래 공간을 열어보였다. 엔비디아가 설계한 최신 AI칩 가운데 가장 강력한 '블랙웰 200'이 모습을 드러냈다.

제미나이, 챗GPT, 클로드 등 대규모언어모델(LLM) 생성형 AI가 기술의 정점을 달리는 가운데, 정보기술(IT)의 메카 실리콘밸리에선 다음 단계인 '피지컬 AI'로 무게중심이 빠르게 옮겨가고 있다. '피지컬 AI'란 로봇, 자율주행, 제조 등 물리적 세계와 직접 연결되는 AI를 뜻한다. 모니터 안에서 기능하는 생성형 AI와 달리, 피지컬 AI는 로봇이나 차량 같은 물리적 기기에 AI가 탑재돼 자율적으로 움직이며 작업을 수행한다. 그래서 흔히 'AI가 모니터 밖으로 나오는 순간'으로 비유된다.

다만 '두뇌(AI)'가 '신체(피지컬)'를 얻는다고 곧바로 완성된 지능형 로봇이 되는 것은 아니다. AI에 하드웨어·현장 데이터·생산 역량·안전·규제까지 종합적으로 결합해야 실용화할 수 있다. 위 로봇 팔처럼, 비디오 게임에서 수백만 번 연습한 챔피언 선수가 현실 경기장에 나오는 것 같은 훈련이 필요한 셈이다. 가상공간에서 익힌 숙련도를 현실 경기로 옮기려면 장비·바람·관중 소음 같은 실제 변수까지 추가로 배워야 한다.

엔비디아·MS, 피지컬 AI '상용화' 넘어 OS 선점 꾀한다



엔비디아의 차세대 임베디드 AI 컴퓨팅 플랫폼 젯슨 토르. 피지컬 AI와 로봇 공학을 위한 고성능 단일 칩 시스템(SoC)이다. 실리콘밸리=박지연 특파원

엔비디아의 차세대 임베디드 AI 컴퓨팅 플랫폼 젯슨 토르. 피지컬 AI와 로봇 공학을 위한 고성능 단일 칩 시스템(SoC)이다. 실리콘밸리=박지연 특파원


학습 범위가 '현실세계'이다 보니 피지컬 AI 전 분야를 단일 기업이 장악하기는 어렵다. 인프라·시뮬레이션은 엔비디아, 로봇 하드웨어는 보스턴 다이내믹스 계열, 필드 배치는 자율주행 업체들이 맡는 식으로 역할이 분화돼 있다는 게 업계 관계자들의 설명이다. 이 때문에 기업들은 피지컬 AI 상용화를 위한 파트너십을 맺고 산업 전반에 새로운 경쟁 구도를 형성하고 있다. 한화 로보틱스가 AI 플랫폼 기업 마음AI와 손잡고 시각·언어·행동(VLA) 모델 기반 자율제어 기술 상용화를 추진하는 등 국내에서도 협업 사례가 포착된다.


여러 기업들이 피지컬 AI '상용화'를 향해 달려가고 있다면, 엔비디아는 피지컬 AI '운영체제(OS)'를 선점하고 생태계를 구축하는 데 열을 올리고 있다. 인터넷 초창기 MS가 윈도를 만들어 개인용 컴퓨터(PC) OS를 표준화한 것처럼, 엔비디아의 옴니버스는 피지컬 AI가 '인터넷'처럼 확산하기 위한 기반(피지컬 AI OS)을 만드는 것이다. 젠슨 황 엔비디아 최고경영자(CEO)는 피지컬 AI를 포함해 AI가 증강하는 전체 시장규모가 50조 달러(약 7경3,100조 원)에 달할 것으로 본다.

이 시장에 깃발을 꽂기 위해 엔비디아와 MS는 표준화한 OS로 상품화에 나섰다. 두 회사는 20일 'MS 이그나이트 2025' 중 '피지컬 AI를 위한 통합 플랫폼으로서의 애저와 옴니버스'를 주제로 한 발표에서 그동안 이어온 인프라·클라우드·AI 협력을 통해 '실시간 시뮬레이션'과 '데이터 기반 최적화'를 이뤘다고 자랑했다. 마치 인테리어 업체가 작업을 시작하기 전 입체적인 3D 가상 이미지를 미리 보여주듯, 옴니버스 컨테이너(독립 배포 가능한 소프트웨어 패키지)가 애저를 통해 오케스트레이션(자동배포·통합관리)돼 빠르고 쉽게 사용할 수 있는 환경을 제공한다는 것이다.

이 기술은 그동안 제조에 막대한 시간과 공간, 비용을 들이던 제조업체들에겐 커다란 비용 절감 효과를 가져다준다. 독일 완성차업체 BMW가 옴니버스 플랫폼을 활용해 가상 공장을 구축하고 디지털 트윈으로 공장 레이아웃, 로봇 동선, 물류 시스템을 모의실험하며 최적화한 게 대표적이다. BMW 헝가리 데브레첸 전기차 공장은 가동 전 이미 가상 환경에서 설계·검증을 마친 첫 사례로 꼽힌다. 실제 가동을 시작하면 전 세계 30여 개 생산 거점에서 최대 30%의 생산 계획 비용을 절감할 것이라는 게 회사 측 계산이다.


피지컬 AI 구현하는 '월드모델', 세상을 '인식'하는 법 익히는 중



엔비디아의 최신 AI 및 고성능 컴퓨팅(HPC) 플랫폼 GB300. 그레이스 블랙웰 아키텍처를 기반으로 한 슈퍼칩 시스템의 확장 버전이다. 지난해 엔비디아 GTC 콘퍼런스에서 발표된 블랙웰 시리즈 중 하나로, 주로 AI 훈련, 추론, 그리고 피지컬 AI 시뮬레이션과 같은 고급 컴퓨팅 작업을 위해 설계됐다. 실리콘밸리=박지연 특파원

엔비디아의 최신 AI 및 고성능 컴퓨팅(HPC) 플랫폼 GB300. 그레이스 블랙웰 아키텍처를 기반으로 한 슈퍼칩 시스템의 확장 버전이다. 지난해 엔비디아 GTC 콘퍼런스에서 발표된 블랙웰 시리즈 중 하나로, 주로 AI 훈련, 추론, 그리고 피지컬 AI 시뮬레이션과 같은 고급 컴퓨팅 작업을 위해 설계됐다. 실리콘밸리=박지연 특파원


이를 구현하는 게 바로 '월드모델'이다. 수십억 개의 단어에서 통계적 패턴을 '학습'하는 LLM 기반 챗GPT 등과 달리, 월드모델은 동영상, 이미지, 센서 데이터, 3D 스캔을 통해 세상이 어떻게 작동하는지 '인식'한다. 최근 메타를 떠나 월드모델 스타트업을 준비 중인 것으로 알려진 'AI의 대부' 얀 르쿤 뉴욕대 교수는 LLM으로는 스스로 세상을 인식하고 반응하는 '고양이 지능'에도 도달하기 어렵다고 주장한다.

빅테크들은 대규모 '피지컬 AI' 시장에 뛰어들 채비를 서두르고 있다. 엔비디아는 올초 '코스모스 월드 파운데이션 모델'이라는 월드모델을 공개하며 다른 기업보다 빠르게 피지컬 AI OS와 월드모델을 상품화했다. 구글 딥마인드는 행동하기 전 생각하는 로봇을 구현하겠다며 '제미나이 로봇 프로젝트'를 구체화했다. 생각하는 모델인 '제미나이 1.5'와 행동을 제어하는 '체화된 추론(ER)' 기술을 결합해 로봇의 인지 능력을 높이려는 구상이다.

테슬라의 행보도 빨라졌다. 지난 8월 휴머노이드 로봇 '옵티머스'의 공장 배치 계획을 알린 테슬라는 자율주행(FSD)에서 쌓은 월드모델 기술을 로봇에 이식해 내년부터 실제 공장에 투입할 예정이다. 일론 머스크 테슬라 CEO는 "테슬라 미래 가치의 80%가 옵티머스에서 나올 것"이라며 자신감을 내비쳤다.


'포켓몬 고'로 유명한 나이언틱은 이미 전 세계 1,000만 곳 이상의 장소를 스캔해 방대한 공간 인식 데이터를 구축 중이다. 데카트와 런웨이 같은 스타트업은 영상 생성 기술로 물리세계를 시뮬레이션하고 있다. 피규어 AI와 어질리티 로보틱스도 인간형 로봇의 상용화에 속도를 내고 있다.

'배고픈' 피지컬 AI…공부할 데이터가 없다? 모라벡의 역설



미 캘리포니아 샌프란시스코 모스콘센터에서 지난달 17일부터 나흘간 열린 '마이크로소프트(MS) 이그나이트 2025'에서 MS와 엔비디아 측 발표자들이 협업사례를 설명하고 있다. 실리콘밸리=박지연 특파원

미 캘리포니아 샌프란시스코 모스콘센터에서 지난달 17일부터 나흘간 열린 '마이크로소프트(MS) 이그나이트 2025'에서 MS와 엔비디아 측 발표자들이 협업사례를 설명하고 있다. 실리콘밸리=박지연 특파원


금방이라도 세상이 변할 듯 보이지만, 현실적 한계도 뚜렷하다. 피지컬 AI 시대의 가장 큰 도전은 다름 아닌 '데이터 부족'이다. 자이온 브루어 엔비디아 AI 전략 리더는 이날 발표에서 "생성형 AI는 인터넷이라는 거대한 학습 데이터가 있었지만, 피지컬 AI를 위한 데이터는 거의 존재하지 않는다"며 "우리는 피지컬 AI가 학습할 방대한 현실세계 데이터를 직접 만들어가고 있다"고 말했다.

이는 AI와 로봇공학 분야에서 자주 거론되는 '모라벡의 역설'이다. 걷기, 물건 잡기처럼 인간에게는 직관적이고 쉬운 감각·운동 능력이 AI에게는 가장 어려운 반면, 인간에게 어려운 고도의 논리·계산은 AI가 쉽게 수행한다는 이론이다. 컴퓨터과학자 한스 모라벡이 1988년 저서 '마음의 아이들'에서 제시한 이 관찰은 37년이 지난 AI 시대에도 여전히 극복되지 않은 셈이다.

실제 날씨부터 주변 물체, 조명, 각도, 재질 등 사람이 자연스럽게 인식하는 현실세계는 로봇에겐 무한대에 가까운 학습 분량이다. 한 구글 엔지니어는 한국일보에 "LLM이 실수하면 환각 현상으로 끝나지만 월드모델이 현실을 잘못 인식하면 사람이 다치거나 설비가 파손될 수 있다"며 "LLM은 추론에 시간이 걸려도 큰 문제가 없지만, 현실세계에서 움직이는 월드모델은 비상상황에서 몇 초만 지체돼도 사고로 이어질 수 있다"고 설명했다.

이 때문에 로봇 팔은 현실세계에서 조작하는 사람의 움직임을 끝없이 학습한다. 예컨대 로봇 팔이 컵을 세게 쥐면 컵이 깨질지, 주사위를 집을 때 모서리를 잡으면 미끄러질지, 관절을 270도로 꺾으면 팔을 끝까지 뻗을 수 없는지 등을 익히는 것이다. 자이언은 "그래서 공장 바닥이나 설비를 3D 스캔하는 것부터 시작한다"며 "자율주행차가 수년간 거리를 주행하며 데이터를 수집한 것도 결국 물리세계를 받아들이는 과정"이라고 덧붙였다.

발표를 마친 자이언에게 지금까지 피지컬 AI가 학습한 현실세계가 어느 수준인지 물었다. "전체 현실세계의 0.1%도 되지 않는다." AI가 인간의 지성은 불과 몇 년 만에 흉내냈지만, 평범한 몸짓을 익히려면 여전히 갈 길이 멀다는 냉정한 답변이다. 결국 피지컬 AI의 완성은 나머지 99.9%의 미지(未知)를 끈기 있고 안전하게 채워나가는 데 달렸다는 얘기다.

실리콘밸리= 박지연 특파원 jyp@hankookilbo.com

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1광주 전남 행정통합
    광주 전남 행정통합
  2. 2은애하는 도적님아
    은애하는 도적님아
  3. 3김민석 배리어프리 키오스크
    김민석 배리어프리 키오스크
  4. 4트럼프 네타냐후 회담
    트럼프 네타냐후 회담
  5. 5통일교 쪼개기 후원
    통일교 쪼개기 후원

한국일보 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD