본문 바로가기

뉴스

스타트업 지원용 대규모 데이터셋 구축에 구글·MS·오픈AI 지원

댓글0
[박찬 기자]
AI타임스

(사진=셔터스톡)


하버드 대학교가 전 세계 누구나 저작권 제약 없이 자유롭게 고품질 학습 데이터에 접근할 수 있는 대규모 인공지능(AI) 학습 데이터셋을 공개했다. 비용 문제 등 데이터셋에 접근하기 어려운 스타트업 등을 돕자는 취지인데, 구글과 마이크로소프트(MS), 오픈AI 등이 이를 지원한 것으로 알려져 주목됐다.

하버드대는 12일(현지시간) 100만권의 공공 도메인 도서를 AI 훈련 데이터셋으로 공개한다고 발표했다.

이는 기존에 주로 활용되던 '북3(Books3)' 데이터셋보다 약 5배 더 큰 규모다. 디킨스, 단테, 셰익스피어 등 더 이상 저작권 보호를 받지 않는 다양한 장르와 언어의 작품을 포함하고 있다.

특히 이 데이터셋은 빅테크의 도움으로 구축할 수 있었다.

데이터는 구글의 책 스캔 프로젝트인 '구글 북스(Google Books)'를 통해 구축했다. 또 오픈AI와 MS의 재정적 지원을 받았다.

이 데이터셋은 AI 연구소나 스타트업 등 누구나 사용할 수 있도록 설계됐다. 자연어 처리(NLP)와 기계 학습, AI 개발 등 다양한 분야에서 혁신을 촉진하고 협업을 장려하려는 의도라는 설명이다.

프로젝트를 주도한 하버드 데이터 이니셔티브 연구소(IDI) 그렉 레퍼트 대표는 "기술 거대 기업이 사용하는 방대한 데이터셋에 접근할 수 없는 소규모 AI 개발자에게 경쟁 환경을 균등하게 만들기 위한 것"이라고 취지를 밝혔다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

이 기사를 본 사람들이 선택한 뉴스

  • 한겨레2032년 소행성 충돌 위험 2.2%로 상승…지구 방위 논의 시작되나
  • 중앙일보기업 수천 곳 각기 다른 실험…"중국 AI, 이게 진짜 무서운 것"
  • 플래텀오픈소스로 미국 제재 뚫은 中 AI 기업… 딥시크의 반란
  • 연합뉴스TV카카오톡 '나와의 채팅'에 말풍선 태그…메모장 기능 향상
  • 매일경제[단독] AI 연구 위해 의료·경영·정치학까지 뭉쳤다…기아·연세대 융합 실험 스타트

쇼핑 핫아이템

AD