컨텐츠로 건너뛰기
뉴스
서울
흐림 / 0.2 °
디지털투데이 언론사 이미지

맥북 프로 1대로 5분 만에 AI 훈련한다고?

디지털투데이
원문보기
[AI리포터]

[디지털투데이 AI리포터] 인공지능(AI) 모델 훈련은 기본적으로 고성능 그래픽처리장치(GPU)를 장시간 가동해 실행되지만, 5분 만에 노트북에서 AI를 훈련하는 실험이 진행돼 눈길을 끌었다.

18일(현지시간) 온라인 매체 기가진에 따르면 마이크로소프트(MS) 깃허브 직원이자 AI 제품 개발자인 숀 괴데케(sean goedecke)는 맥북 프로에서 5분 만에 언어 모델을 훈련하는 도전에 나섰고, 최적의 방법을 찾았다. 그는 언어 모델 훈련에 '파이토치'(PyTorch) 라이브러리를 선택했다. 애플이 개발한 'MLX'도 테스트했지만 속도 향상 효과는 없었다고 한다.

구데크에 따르면 훈련 시간을 5분으로 제한하면 학습 데이터량도 줄어들어 약 50MB(1000만 토큰)만 사용할 수 있다. 이에 따라 훈련 초기에는 '심플 영어 위키피디아'(Simple English Wikipedia) 등 단순 영문 위키 데이터를 먼저 사용한 결과, 의미 일관성이 부족한 것으로 나타났다. 이후 반복적인 문장 구조 문제가 발생해 최종적으로 4세 수준의 독해력을 가진 '타이니스토리즈'(TinyStories)와 같은 데이터셋을 채택했다. 해당 데이터셋을 사용할 경우 이야기 구조가 명확하고 언어가 단순하여 결과가 훨씬 더 일관적이었다.

모델 아키텍처는 구글이 개발한 GPT-2 스타일의 트랜스포머 방식을 사용했다. 이 과정에서 파라미터 조정에 가장 많은 시간이 소요됐다. 제미나이 디퓨전(Gemini Diffusion) 등과 함께 최근 확산 모델이 주목받지만, 이번 훈련 환경에서는 효과가 없었다고 한다.

모델 크기도 중요한 변수였다. 보통 파라미터가 많을수록 성능이 향상되지만, 제한된 환경에서는 오히려 성능이 저하됐다. 테스트 결과, 약 200만 파라미터 수준에서 가장 높은 성능을 보였다.

결국, 맥북 프로에서 5분 훈련 조건에서는 파이토치, 타이니스토리즈 데이터셋, 트랜스포머 180만 파라미터 조합이 가장 강력한 언어 모델을 만드는 방법이라는 결론에 도달했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1신유빈 임종훈 결승 진출
    신유빈 임종훈 결승 진출
  2. 2하나은행 6연승
    하나은행 6연승
  3. 3삼성 현대모비스 경기
    삼성 현대모비스 경기
  4. 4변요한 티파니 열애
    변요한 티파니 열애
  5. 5은행 대출 금리
    은행 대출 금리

디지털투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD