컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
AI타임스 언론사 이미지

스타트업 지원용 대규모 데이터셋 구축에 구글·MS·오픈AI 지원

AI타임스 박찬
원문보기
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


하버드 대학교가 전 세계 누구나 저작권 제약 없이 자유롭게 고품질 학습 데이터에 접근할 수 있는 대규모 인공지능(AI) 학습 데이터셋을 공개했다. 비용 문제 등 데이터셋에 접근하기 어려운 스타트업 등을 돕자는 취지인데, 구글과 마이크로소프트(MS), 오픈AI 등이 이를 지원한 것으로 알려져 주목됐다.

하버드대는 12일(현지시간) 100만권의 공공 도메인 도서를 AI 훈련 데이터셋으로 공개한다고 발표했다.

이는 기존에 주로 활용되던 '북3(Books3)' 데이터셋보다 약 5배 더 큰 규모다. 디킨스, 단테, 셰익스피어 등 더 이상 저작권 보호를 받지 않는 다양한 장르와 언어의 작품을 포함하고 있다.

특히 이 데이터셋은 빅테크의 도움으로 구축할 수 있었다.

데이터는 구글의 책 스캔 프로젝트인 '구글 북스(Google Books)'를 통해 구축했다. 또 오픈AI와 MS의 재정적 지원을 받았다.

이 데이터셋은 AI 연구소나 스타트업 등 누구나 사용할 수 있도록 설계됐다. 자연어 처리(NLP)와 기계 학습, AI 개발 등 다양한 분야에서 혁신을 촉진하고 협업을 장려하려는 의도라는 설명이다.


프로젝트를 주도한 하버드 데이터 이니셔티브 연구소(IDI) 그렉 레퍼트 대표는 "기술 거대 기업이 사용하는 방대한 데이터셋에 접근할 수 없는 소규모 AI 개발자에게 경쟁 환경을 균등하게 만들기 위한 것"이라고 취지를 밝혔다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1이해찬 건강 악화
    이해찬 건강 악화
  2. 2양현민 최참사랑 득녀
    양현민 최참사랑 득녀
  3. 3린샤오쥔 올림픽 출전
    린샤오쥔 올림픽 출전
  4. 4토트넘 수비수 영입
    토트넘 수비수 영입
  5. 5정관장 소노 경기
    정관장 소노 경기

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD