[AI리포터]
[디지털투데이 AI리포터] 애플이 이미지 이해와 생성 결합한 통합 멀티모달 모델 만자노(Manzano) 연구를 공개했다.
14일(현지시간) IT매체 나인투파이브맥에 따르면, 애플 연구진은 이미지 이해와 텍스트-이미지 생성 기능을 동시에 수행하면서 기존 모델에서 나타나는 성능과 품질 간 절충 문제를 줄인 통합 멀티모달 모델 만자노를 발표했다. 연구진은 만자노가 이해와 생성을 한 모델에서 처리할 수 있도록 설계돼, 기존 멀티모달 모델이 가지던 한계를 극복했다고 밝혔다.
기존 모델은 이미지 생성과 시각 이해를 동시에 수행할 때 상충하는 시각 표현 방식으로 인해 어느 한쪽 성능을 희생할 수밖에 없었다. 만자노는 예측된 이미지 의미 정보를 확산 디코더(diffusion decoder)에 전달해 실제 픽셀을 생성하는 구조를 통해 이해와 생성 작업을 동시에 수행할 수 있다.
[디지털투데이 AI리포터] 애플이 이미지 이해와 생성 결합한 통합 멀티모달 모델 만자노(Manzano) 연구를 공개했다.
14일(현지시간) IT매체 나인투파이브맥에 따르면, 애플 연구진은 이미지 이해와 텍스트-이미지 생성 기능을 동시에 수행하면서 기존 모델에서 나타나는 성능과 품질 간 절충 문제를 줄인 통합 멀티모달 모델 만자노를 발표했다. 연구진은 만자노가 이해와 생성을 한 모델에서 처리할 수 있도록 설계돼, 기존 멀티모달 모델이 가지던 한계를 극복했다고 밝혔다.
기존 모델은 이미지 생성과 시각 이해를 동시에 수행할 때 상충하는 시각 표현 방식으로 인해 어느 한쪽 성능을 희생할 수밖에 없었다. 만자노는 예측된 이미지 의미 정보를 확산 디코더(diffusion decoder)에 전달해 실제 픽셀을 생성하는 구조를 통해 이해와 생성 작업을 동시에 수행할 수 있다.
연구진은 만자노를 300M에서 30B 파라미터까지 다양한 규모로 평가한 결과, 여러 벤치마크에서 기존 최첨단 모델과 비교해 경쟁력 있는 성능을 나타냈다고 전했다. 또한 코끼리 아래를 나는 새처럼 물리적으로 비직관적인 프롬프트에도 대응할 수 있으며, 스타일 전환, 인페인팅·아웃페인팅, 깊이 추정 등 다양한 이미지 편집 작업에서도 우수한 결과를 보였다.
이번 연구는 만자노의 하이브리드 토크나이저 학습, 확산 디코더 설계, 모델 확장 실험과 인간 평가 등 기술적 세부 내용을 포함하고 있으며, 애플의 이미지 생성 기술 향상과 자체 서비스 개발에 기여할 수 있을 것으로 평가된다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>




























































