[박찬 기자]
애플이 세계 개발자 컨퍼런스(WWDC)에서 공개한 인공지능(AI) 시스템 '애플 인텔리전스'의 기반 모델을 소개했다. 분석 결과, 온디바이스 AI에 최적화한 모델이라는 평가다.
마크테크포스트는 11일(현지시간) 애플이 iOS 18, 아이패드OS 18 및 맥OS 세쿼이아에 통합된 AI 시스템 애플 인텔리전스 기반 모델의 기술 문서를 공개했다고 전했다. 따로 이름을 붙이지는 않았으나, 애플의 대형언어모델(LLM)은 '에이잭스(Ajax)'로 알려져 있다.
이에 따르면 파운데이션 모델은 기기 내 AI 처리를 위한 30억 매개변수의 온디바이스 언어 모델 프라이빗 클라우드 컴퓨팅을 위한 서버 언어 모델 등 2가지다. 서버 모델의 크기 등 구체적인 정보는 공개되지 않았다.
애플이 세계 개발자 컨퍼런스(WWDC)에서 공개한 인공지능(AI) 시스템 '애플 인텔리전스'의 기반 모델을 소개했다. 분석 결과, 온디바이스 AI에 최적화한 모델이라는 평가다.
마크테크포스트는 11일(현지시간) 애플이 iOS 18, 아이패드OS 18 및 맥OS 세쿼이아에 통합된 AI 시스템 애플 인텔리전스 기반 모델의 기술 문서를 공개했다고 전했다. 따로 이름을 붙이지는 않았으나, 애플의 대형언어모델(LLM)은 '에이잭스(Ajax)'로 알려져 있다.
이에 따르면 파운데이션 모델은 기기 내 AI 처리를 위한 30억 매개변수의 온디바이스 언어 모델 프라이빗 클라우드 컴퓨팅을 위한 서버 언어 모델 등 2가지다. 서버 모델의 크기 등 구체적인 정보는 공개되지 않았다.
애플은 구글의 AI 반도체 TPU와 자체 온프레미스 GPU에 최적화된 AI 개발 프레임워크 'AX런(AXLearn)'을 사용해 모델을 훈련했다. 구글 TPU는 시장에서 판매되지 않고 구글 클라우드를 통해서만 활용할 수 있다는 점에서, 구글에 대한 의존도가 적지 않을 것이란 관측도 나왔다.
또 웹 크롤러인 '애플봇(AppleBot)'이 수집한 공개 데이터뿐만 아니라, 특정 기능을 향상하기 위해 라이선스 데이터를 기반으로 기반 모델을 훈련했다. 요약과 같은 작업을 향상하기 위해 합성 데이터도 활용했다.
애플은 모델의 추론 성능 향상을 위해 온디바이스와 프라이빗 클라우드에서 속도와 효율성을 최적화하는 데 집중했다.
이를 위해 기기 내 모델과 서버 모델 모두 '그룹 쿼리 어텐션(grouped-query-attention)'을 사용했다. 입력 및 출력 어휘 임베딩 테이블을 공유해 메모리 요구 사항과 추론 비용을 줄였다. 이런 공유 임베딩 텐서는 중복 없이 매핑된다. 온디바이스 모델은 4만9000개, 서버 모델은 10만개의 어휘 크기를 사용한다.
온디바이스 추론을 위해 필요한 메모리, 전력 및 성능 요구 사항을 충족하는 최적화 기법 '저비트 팔레타이제이션(low-bit palletization)'도 적용했다. 모델 품질을 유지하기 위해 가중치당 혼합 2비트 및 4비트 구성 전략을 통합하는 '로라(LoRA)' 어댑터를 사용해 압축하지 않은 모델과 동일한 정확도를 달성하는 새로운 프레임워크를 개발했다. 또 활성화 양자화 및 임베딩 양자화를 활용, 신경 엔진에서 효율적으로 가중치 업데이트를 가능하게 하는 접근 방식을 개발했다.
이를 통해 온디바이스 모델은 '아이폰 15 프로'에서 프롬프트당 0.6밀리초(ms)의 첫 번째 토큰 지연 시간과 초당 30개의 토큰 생성 속도를 달성할 수 있다.
또 애플은 기반 모델들을 로라(LoRA) 기법을 사용해 특정 작업에 맞게 모델을 미세조정했다. 로라는 전체 가중치 대신 일부 가중치만을 조정해 전체 매개변수 미세조정을 통해 달성한 것과 같은 수준의 정확도를 유지하면서 필요한 메모리와 계산을 획기적으로 줄이는 미세조정 기법이다.
일반적으로는 미세조정 후 가중치를 기반 모델과 병합하지만, 로라는 미세조정된 가중치를 추론 중에 기반 모델에 연결하는 별도의 '어댑터(Adapter)' 모델로 대체할 수 있다. 어댑터 모델은 동적으로 로드되고, 메모리에 일시적으로 캐시되며, 교체될 수 있다. 이를 통해 기반 모델은 메모리를 효율적으로 관리하고 운영 체제의 응답성을 보장하면서 현재의 작업에 맞게 실시간으로 특화된 기능을 제공할 수 있다.
애플은 온디바이스 모델과 서버 모델의 성능 평가 결과도 공개했다. 테스트를 위해 브레인스토밍, 분류, 폐쇄형 질문 응답, 코딩, 추출, 수학적 추론, 개방형 질문 응답, 재작성, 안전성, 요약, 작문 등의 주요 카테고리를 다룬 프롬프트를 사용했다.
벤치마크에서는 '파이-3' '젬마' '미스트랄' 'DBRX' 등 오픈 소스 모델과 상업용 모델 'GPT-3.5-터보' 'GPT-4-터보' 등을 비교했다.
그 결과, 대부분의 경쟁 모델보다 애플 모델이 인간 평가자들에게 더 선호된다는 것을 확인했다. 온디바이스 모델은 파이-3-미니, 미스트랄-7B, 젬마-7B 등의 더 큰 모델들을 능가했다. 서버 모델은 DBRX-인스트럭트, 믹스트랄l-8x22B, GPT-3.5-터보에 비해 높은 효율성을 보였다.
또 적대적 프롬프트를 사용해 유해한 콘텐츠나 민감한 주제, 그리고 사실성에 대한 모델 성능을 테스트했다. 이 평가 세트에 대해서는 모델의 위반률을 측정하며, 숫자가 낮을수록 바람직하다.
애플의 온디바이스 모델과 서버 모델은 모두 적대적 프롬프트에 대해 강력한 성능을 보였다. 안전을 강조하는 애플답게 다른 회사 모델을 모두 앞섰다.
마크테크포스트는 "애플이 온디바이스 AI에 진출한 것은 엄청난 기술적 도약을 의미한다"라며 "미세 조정된 로라 어댑터를 활용하고 개인 정보 보호 및 효율성에 중점을 둬, AI 환경에 새로운 표준을 설정하고 있다"라고 평가했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































