생성형 AI 추론을 위한 쿠버네티스의 진화 : zum 뉴스

쿠버네티스는 방대한 커뮤니티, 그리고 분산 시스템 관리를 위한 포괄적인 기능에 힘입어 클라우드 네이티브 애플리케이션과 마이크로서비스 배포를 위한 주도적인 플랫폼으로 올라섰다. 그러나 생성형 AI가 부상하면서 컨테이너 오케스트레이션 측면에서 해결해야 할 과제도 함께 따라왔다. 대규모 언어 모델과 특수 하드웨어, 까다로운 요청/응답 패턴을 위해서는 단순한 마이크로서비스 관리자를 넘어서는, ‘AI를 인식하는 플랫폼’이 필요하다.

구글 클라우드는 이 같은 생성형 AI의 요구사항에 대응하고자 바이트댄스(ByteDance), 레드햇(Red Hat) 등과 손잡고 근본적인 개선 사항을 쿠버네티스 오픈소스 프로젝트에 직접 통합해 나가고 있다.

커뮤니티가 중심이 된 이러한 노력 덕분에 쿠버네티스는 AI 추론에 대한 네이티브 이해력을 갖추고 추론 성능 벤치마킹, LLM 인식 라우팅, 추론 게이트웨이 로드 밸런싱, 동적 리소스 할당과 같은 중요한 영역에 대응하는 중이다. 기반에 대한 이와 같은 투자는 AI를 위한 더 견고하고 효율적인 플랫폼 구축으로 이어지고, 결과적으로 전체 생태계가 다음과 같은 혜택을 누릴 수 있게 된다.

- 추론 성능(Inference Perf) 프로젝트를 통해 가속기를 벤치마킹하고 적합성을 평가
- 게이트웨이 API 추론(Gateway API Inference) 확장을 활용해 LLM 인식 라우팅 기반의 스케일아웃 아키텍처 운영화
- 하드웨어 가속기를 위한 DRA(Dynamic Resource Allocation), LLM 추론과 서빙을 위한 vLLM 라이브러리를 통해 다양한 가속기에서 스케줄링 및 상호대체성 확보

쿠버네티스 추론 스택Google Cloud

쿠버네티스와 추론 서버의 수직 통합

우리는 쿠버네티스의 핵심적인 개선 작업을 진행하는 동안 쿠버네티스 위에서 실행되는 추론 서버도 함께 발전해야 한다는 필요성을 인지했다. 이전에는 vLLM, SG랭(SGLang), 트리톤(Triton)과 같은 추론 서버는 쿠버네티스 인프라에 배포되는 독립적인 구성요소로 간주됐다. 분리형 서빙(disaggregated serving)과 같은 기술은 추론 서버와 쿠버네티스를 수직 통합하면 하나의 시스템으로 운영할 수 있다는 이점을 제공한다.

예를 들어 분리형 서빙을 적용하면 쿠버네티스 제어 평면에서 전역 프로세스를 실행해 키-값(KV) 캐시 활용도를 극대화함으로써 성능을 향상시킬 수 있다. 이러한 이유로 구글 클라우드는 레드햇, 엔비디아, IBM 리서치, 코어위브를 비롯한 여러 업체와 함께 llm-d를 구성하고 있다. 이 이니셔티브는 vLLM과 쿠버네티스를 통합해 두 기술을 하나로 모으는 데 그치지 않고 두 커뮤니티 간의 협업을 강화하는 데까지 목표를 둔다.

이 오픈소스 작업은 구글 클라우드의 구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)의 새로운 기능을 위한 기반이 되며, 모든 쿠버네티스와 llm-d 프리미티브를 즉시 사용 가능한 형태로 구현할 수 있게 해준다.

GKE 추론 퀵스타트로 배포 간소화

AI 모델 프로덕션을 향한 여정은 적절한 하드웨어 가속기 선택부터 최적의 서빙 환경 구성에 이르기까지 여러 복잡한 과정으로 구성된다. GKE 추론 퀵스타트(GKE Inference Quickstart)는 이 과정을 간소화하기 위해 개발된 새로운 기능이다. 퀵스타트의 백엔드는 구글 클라우드가 관리하는 광범위한 벤치마크 데이터베이스로, 모든 새로운 모델과 가속기 구성에 대한 지연 대비 처리량 곡선을 생성한다. 이 벤치마킹 시스템은 쿠버네티스의 표준 추론 성능 프로젝트를 기반으로 한다.

GKE 추론 퀵스타트는 모델 배포 과정에서 막연한 추정을 배제하기 위해 사전 구성되고 최적화된 설정을 제공한다. GPU 또는 TPU 사용을 비롯해 구체적인 요구사항에 가장 잘 맞는 가속기에 대해 데이터에 기반한 의사 결정을 내릴 수 있게 해준다. 이를 통해 AI 애플리케이션의 출시 시간을 단축하고 성능과 효율성에 맞춰 설계된 기반 위에서 시작할 수 있다.

퀵스타트 데이터베이스에 저장된 지연 시간 대 처리량 벤치마크 곡선Google Cloud

추론에 TPU 활용하기

오래전부터 구글 내부 AI 개발의 초석 역할을 해온 구글의 텐서 처리 장치(Tensor Processing Units, TPU)는 머신러닝 워크로드를 위한 뛰어난 성능과 비용 효율성을 제공한다. 이제 이런 이점을 사용자의 자체 추론 작업에 더욱 쉽게 사용할 수 있다.

새로운 vLLM/TPU 통합 덕분에 이제 광범위한 코드 수정 없이 TPU에 모델을 배포할 수 있다. 핵심은 널리 사용되는 vLLM 라이브러리를 TPU에서 지원해서 GPU와 TPU 간의 상호운용성을 제공한다는 점이다. 구글 클라우드는 GKE에서의 추론에서 TPU의 강력한 성능을 활용할 수 있도록 함으로써 까다로운 AI 워크로드에 대한 가성비를 최적화할 방법을 찾는 고객에게 폭넓은 선택지를 제공한다.

GKE 추론 게이트웨이를 통한 AI 인식 로드 밸런싱

라운드 로빈 방식으로 트래픽을 분산하는 기존 로드 밸런서와 달리 GKE 추론 게이트웨이는 지능을 갖추고 있으며 AI를 인식한다. 즉, 간단한 요청도 길고 컴퓨팅 집약적인 응답으로 이어질 수 있는 생성형 AI 워크로드의 특성을 이해한다.

GKE 추론 게이트웨이는 현재의 부하, 예상 처리 시간(이 시간은 KV 캐시 사용률을 통해 추정)과 같은 요소를 고려해서 가장 적합한 모델 복제본으로 지능적으로 요청을 라우팅한다. 이렇게 하면 장시간 실행되는 하나의 요청으로 인해 더 간단한 다른 요청이 차단되는 현상(AI 애플리케이션에서 지연이 길어지는 일반적인 원인)이 방지되고, 결과적으로 성능과 리소스 사용률이 비약적으로 개선된다.

GKE 추론 게이트웨이 적용 전후의 메트릭, 상대적 성능 향상을 보여준다. Google Cloud

AI 인식 클라우드 네이티브 생태계를 향한 여정

이런 발전을 통해 미래에는 AI 인식 쿠버네티스의 주도 하에 클라우드 네이티브 생태계에 생성형 AI 추론이 매끄럽게 통합될 것이다. WG 서빙(WG Serving), SIG 스케일러빌리티(SIG Scalability), llm-d, vLLM과 같은 오픈소스 커뮤니티 간의 협력은 대규모 언어 모델과 특수 하드웨어의 과제에 직접적으로 대응하는, 계속 발전하는 생기 넘치는 플랫폼을 만들어가고 있다.

이와 같은 지속적인 발전은 궁극적으로 혁신의 순환 구조를 만들어 쿠버네티스 플랫폼이 AI와 하드웨어 분야의 최신 기술 개발에 발맞출 수 있게 해준다. 여러 가속기 간의 상호대체성에 대한 중점과 강력한 커뮤니티 협업은 실무자들이 생성형 AI 애플리케이션을 배포하고 확장하는 데 있어 견고하고 효율적이고 유연한 환경을 제공하며, 모델 개발에서 프로덕션에 이르기까지의 여정을 가속화하고 있다.

dl-itworldkorea@foundryco.com

생성형 AI 추론을 위한 쿠버네티스의 진화

AI 이슈 트렌드

이 시각 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템