[디지털데일리 배태용 기자] "AI 칩은 단순히 연산 성능 경쟁이 아닙니다. 얼마나 적은 전력으로 효율적으로 대규모 LLM을 구동할 수 있느냐가 진짜 경쟁입니다."
오진욱 리벨리온 최고기술책임자(CTO)는 4일 서울 코엑스에서 열린 'SK AI 서밋 2025' 발표에서 자사의 최신 AI 가속기 '리벨 쿼드(REBEL-Quad)'를 소개하며 이같이 말했다. 그는 "에너지 효율성, 경제성, 확장성을 모두 충족할 수 있는 대안이 필요하다"며 세계 최초로 UCIe-Advanced 인터커넥트 기반의 AI 칩 구조와 이를 지원하는 소프트웨어·시스템 설계 전략을 공개했다.
리벨리온은 이날 발표에서 AI 대형모델(LLM) 추론을 위한 '칩렛 기반 NPU(Neural Processing Unit)' 구조를 처음으로 공개했다. 핵심 제품인 리벨 쿼드는 자체 설계한 칩렛 '리벨(REBEL)' 4개를 하나의 패키지로 통합한 형태로 2 PFLOPS(페타플롭스) 연산 성능, 144GB의 HBM3 메모리, 4.8TB/s 메모리 대역폭을 제공한다.
특히 전력 소비를 최소화한 점이 특징이다. 리벨 쿼드는 최대 전력 소비가 600W 수준이지만 실사용 기준에서는 GPU 대비 2~3배 낮은 전력으로 동등 이상의 추론 성능을 낸다. 오 CTO는 "퍼포먼스 per Watt, per TCO 관점에서 GPU를 능가하는 효율을 보장한다"라며 "단일 카드로 B200, H200 대비 3~5배 이상 뛰어난 비용 효율성을 확보할 수 있다"고 강조했다.
이날 리벨리온은 자체 칩 성능을 증명할 수 있는 실증 사례도 공개했다. 대표적인 데모는 LLaMA 70B 모델 추론이었다. 리벨 쿼드는 단일 칩셋에서 LLaMA 모델을 구동하며 128K 토큰까지 효율적으로 처리했고 VLLM 기반 추론 최적화 기능도 구현됐다.
또한 오 CTO는 SK텔레콤의 AI 서비스에 전세대 AI 가속기 'ATOM'이 실제 상용화된 사례도 공유했다.
그는 "단순한 성능이 아니라 실제 비즈니스 문제를 푸는 솔루션이 중요한 시대"라며 "에너지·비용·공간 제약이 큰 기업 환경에서 가장 현실적인 AI 가속기 대안이 될 수 있다"고 설명했다.
오 CTO는 "AI 추론이 본격화되면서 클라우드·하이퍼스케일 기업이 요구하는 효율, 신뢰성, 확장성이 중요해지고 있다"며 "칩, 서버, 랙 전체를 최적화한 풀스택 접근 방식이 AI 인프라 전환의 핵심"이라고 말했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -































































