컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
AI타임스 언론사 이미지

지푸, 화웨이 칩으로 훈련한 이미지 모델 공개..."중국 기술 자립 사례"

AI타임스
원문보기
[박찬 기자]
‘GLM-이미지’ 생성 이미지 (사진=지푸 AI)

‘GLM-이미지’ 생성 이미지 (사진=지푸 AI)


중국의 지푸 AI가 화웨이의 반도체만을 사용해 학습한 오픈 소스 이미지 생성 모델을 공개하며 중국 AI 산업의 '기술 자립' 전략에 힘을 실었다. 벤치마크 성능도 최고라는 주장이다.

지푸는 14일 새로운 이미지 생성 모델 'GLM-이미지(GLM-Image)'를 공개하며, 이 모델이 데이터 준비부터 최종 학습까지 전 과정을 화웨이의 AI 칩에서 수행한 중국 최초의 오픈 소스 최첨단(SOTA) 모델이라고 밝혔다.

또 이번 성과가 미국산 반도체 없이도 강력한 멀티모달 AI 모델을 개발할 수 있음을 입증했다며, 중국 반도체와 컴퓨팅 인프라의 잠재력을 검증하는 중요한 참고 사례가 되기를 기대한다고 강조했다.

GLM-이미지는 화웨이의 '어센드(Ascend)' AI 프로세서를 탑재한 '어센드 아틀라스 800T A2' 서버와 화웨이의 머신러닝 프레임워크 '마인드스포어(MindSpore)'를 활용해 학습했다.

GLM-이미지 파이프라인 (사진=지푸 AI)

GLM-이미지 파이프라인 (사진=지푸 AI)


기술적으로는 기존 이미지 생성 모델과 차별화된 하이브리드 아키텍처를 채택했다.

대부분 이미지 모델이 확산(diffusion) 방식에 의존하는 것과 달리, GLM-이미지는 자기회귀(autoregressive) 방식의 트랜스포머 모델과 확산 모델을 결합했다. 트랜스포머 모델을 활용해 전체적인 이미지 구도를 빠르게 생성한 뒤 확산 모델을 사용해 이미지의 세부 정보를 정교하게 다듬는 하이브리드 접근 방식이다.


자기회귀 생성기(Autoregressive Generator)는 'GLM-4-9B-0414' 모델을 바탕으로 만든 90억 매개변수의 트랜스포머 모델로, 텍스트뿐 아니라 이미지 정보를 담은 '시각 토큰'도 이해할 수 있도록 어휘를 확장했다. 먼저 약 256개의 간단한 토큰으로 이미지의 전체 구조를 그린 뒤, 이를 1000~4000개 토큰으로 늘려 고해상도 이미지를 완성하는 식이다.

확산 디코더(Diffusion Decoder)는 70억 매개변수의 확산 모델로, 자기회귀 모델에서 생성된 정보를 바탕으로 실제 이미지를 만들어내는 역할을 한다. 특히 이미지 속 글자를 정확하게 표현하기 위한 전용 텍스트 모듈이 포함돼 있어, 그림 안의 문구나 숫자를 더 또렷하게 생성할 수 있다.

이 구조는 구글 딥마인드의 '나노 바나나 프로(Nano Banana Pro)'와 흡사한 것으로, 텍스트가 많은 인포그래픽이나 기술 다이어그램 생성에 강점을 보인다.



복잡한 시각적 텍스트 생성 능력을 평가하는 자체 'CVTG-2k' 벤치마크에서 높은 정확도를 기록했다.

특히 여러 텍스트 영역이 동시에 포함된 이미지에서도 90% 이상의 단어 정확도를 유지해, 엔터프라이즈 환경에 적합하다고 전했다.

하지만, 기술 전문 매체 벤처비트는 자체 테스트를 통해 지시 이해력이나 미적 완성도 면에서 나노 바나나 프로가 여전히 앞선다고 분석했다.


그럼에도 GLM-이미지의 가장 큰 경쟁력은 성능보다도 오픈 소스와 라이선스 제약이 없다는 점으로 꼽힌다.

모델 가중치는 깃허브에서 제공되며, 상업적 활용과 수정, 자체 호스팅에 제약이 거의 없다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1장윤정 고현정 기싸움
    장윤정 고현정 기싸움
  2. 2김병기 금고 추적
    김병기 금고 추적
  3. 3김병기 금고 행방 추적
    김병기 금고 행방 추적
  4. 4박나래 전 매니저 고소
    박나래 전 매니저 고소
  5. 5연말정산 간소화 서비스
    연말정산 간소화 서비스

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD