엔비디아 "차세대 루빈 칩 출시 앞서 블랙웰 성능 대폭 끌어올려" : zum 뉴스

[박찬 기자]

엔비디아가 올해 하반기 차세대 GPU '베라 루빈(Vera Rubin)'의 출시에 앞서, 현재 주력 제품인 '블랙웰(Blackwell)' 칩의 성능을 크게 끌어 올렸다고 혔다.

엔비디아는 8일(현지시간) 홈페이지를 통해 블랙웰 칩에서 전문가 혼합(MoE) 추론 성능이 획기적으로 향상됐다고 발표했다.

이는 추론 소프트웨어 스택과 블랙웰 아키텍처에 대한 업데이트에 따른 것으로, 토큰 처리량이 크게 향상되고 AI 워크로드 비용이 절감됐다는 내용이다.

지난 5일 젠슨 황 엔비디아 CEO는 CES 무대에서 베라 루빈 GPU가 NVFP4 기준 추론 성능 50페타플롭스(PFLOPs), 학습 성능 35PFLOPs를 제공하며, 이는 블랙웰 대비 각각 5배, 3.5배에 해당하는 역대 최고 성능을 발휘한다고 소개했다.

그러나, 베라 루빈은 2026년 하반기에야 공급될 예정이다. 엔비디아는 당장 AI 인프라를 구축해야 하는 기업들은 블랙웰로도 현실적인 성능 향상을 볼 수 있다고 전했다.

엔비디아는 신규 아키텍처 출시와 동시에 기존 제품의 성능을 최대한 끌어올리는 전략을 병행해 왔으며, 블랙웰도 마찬가지다.

데이브 살바토 엔비디아 가속 컴퓨팅 제품 디렉터는 벤처비트와의 인터뷰에서 "블랙웰 아키텍처를 위한 추론과 학습 소프트웨어 스택을 지속적으로 최적화하고 있다"라고 밝혔다.

그 결과, 최근 연구를 통해 단 3개월 만에 블랙웰 GPU의 추론 성능을 GPU당 최대 2.8배까지 끌어올렸다는 것이다.

하드웨어 교체 없이 이런 성능 개선을 달성할 수 있었던 것은 엔비디아의 AI 추론 소프트웨어인 '텐서RT-LLM(TensorRT-LLM)'에 여러 최적화 기술을 적용한 결과다.

작업 지연을 줄이는 실행 방식 개선, 데이터 이동을 단순화한 통신 구조, 한번의 연산으로 여러 토큰을 생성하는 멀티 토큰 예측, 그리고 블랙웰에서 효율적으로 동작하는 4비트 부동소수점 형식 NVFP4 등이 대표적이다. 이를 통해 동일한 인프라에서 더 많은 요청을 더 빠르게 처리하고, 전체 운영 비용도 낮출 수 있다는 설명이다.

블랙웰은 모델 학습에서도 성능 향상이 이뤄졌다. 'GB200 NVL72' 시스템은 출시 당시보다 최대 1.4배 높은 학습 성능을 달성했다. 이는 NVFP4 정밀도를 적극 활용한 학습 레시피 개선과 알고리즘, 소프트웨어 스택의 지속적인 정교화 덕분이다.

그러나 엔비디아는 이런 기술 개선 사항이 베라 루빈에서는 더 강화될 것이라고 강조했다.

살바토 디렉터는 "블랙웰과 루빈은 동일한 모델을 구동할 수 있지만, 성능·효율·토큰 비용에서 차이가 있다"라며 "루빈은 대규모 MoE 모델의 학습에 필요한 GPU 수를 4분의 1로 줄이고, 추론에서는 와트당 처리량을 10배, 토큰당 비용을 10분의 1 수준으로 낮출 것"이라고 설명했다.

전문가들은 기업들이 이분법적 선택에 매달릴 필요는 없다고 조언한다. 이미 블랙웰을 도입한 기업은 최신 텐서RT-LLM 업데이트만으로 즉각적인 성능 개선과 비용 절감을 얻을 수 있다. 2026년 상반기까지 신규 모델 구축도 블랙웰을 선택하는 것이 합리적이라는 평이다.

반면, 2026년 하반기 이후 대규모 인프라 확장을 계획하는 기업이라면 베라 루빈의 획기적인 전력 효율과 비용 구조를 로드맵에 반영할 필요가 있다고 전했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

엔비디아 "차세대 루빈 칩 출시 앞서 블랙웰 성능 대폭 끌어올려"

AI 이슈 트렌드

AI타임스 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템