오픈AI 챗GPT 4o 이미지 폭삭 속았수다 포스터 심슨가족 버전 생성 |
샘 올트먼 오픈AI CEO는 27일(현지시간) X(옛 트위터)에서 "어느날 아침 일어나보니 이용자가 저를 지브리 스타일로 바꿨다는 메시지가 수백 개나 와 있었다"며 자신의 프로필 사진을 실제 사진에서 지브리 화풍의 이미지로 교체했다.
샘 올트먼 오픈AI CEO X 갈무리 |
오픈AI 챗GPT 4o 이미지 4컷 카툰 생성 |
신세계를 연 기술 혁신은 이미지 생성 방식에 있다. 오픈AI에 따르면 기존 '달리3'(DALL-E3)는 '디퓨전'(Diffusion) 방식으로 이미지를 생성했지만. GPT-4o 이미지는 '자기회귀'(Auto Regressive) 방식을 채택했다.
자기회귀는 이미지를 한 번에 통째 생성하지 않고 왼쪽 위부터 오른쪽 아래로 차례로 그리는 방식이다. 사람이 그림을 그릴 때 전체를 한 번에 그리지 않고 한 부분씩 세심하게 작업하는 것과 유사하다. 텍스트를 한 글자씩 생성하는 언어모델 인공지능(AI) 작동 원리와도 비슷하다.
이를 통해 모델이 이미지 내 모든 요소를 정확하게 제어할 수 있다. 텍스트도 명확한 삽입이 가능하다.
이미지 생성 속도는 통합 모델 아키텍처를 채택해 높였다. 기존엔 텍스트·이미지·오디오 등 멀티모달 정보를 텍스트로 변환한 후 다시 처리해야했지만, GPT-4o는 텍스트·픽셀·사운드 데이터를 하나의 모델이 직접 처리하도록 처음부터 설계됐다.
챗GPT 4o 이미지 뉴턴 프리즘 실험 생성 |
학습 방식 역시 진일보했다. GPT-4o는 텍스트·이미지 등을 개별 학습하지 않고 '조합분포'(joint distribution) 방식으로 이미지와 언어, 이미지 간 관계 등을 통합적으로 학습한다. 이같은 원리로 '뉴턴의 프리즘 실험-빛의 스펙트럼' 다이어그램 등도 생성할 수 있다는 설명이다.
아울러 여러 객체의 모양·색상·위치 관계를 정확히 파악·유지하는 능력(속성 바인딩)도 발전했다.
가브리엘 고 오픈AI 멀티모달 담당 연구책임자는 "기존 모델은 항목이 5개만 넘어가도 특성을 섞어 그리는 한계를 보였지만, GPT-4o 이미지 모델은 속성 바인딩이 우수해 최대 15개 이상의 객체를 정확하게 생성할 수 있다"고 설명했다.
ideaed@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.