컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
플래텀 언론사 이미지

엘리스그룹, 1,900억 토큰 규모 한국어 AI 교육용 데이터셋 공개

플래텀 플래텀
원문보기

AI 풀스택 기업 엘리스그룹이 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개했다. 한국어 AI 모델 학습에 적합한 데이터를 연구자, 개발자, 기업이 활용할 수 있도록 제공해 국내외 AI 연구 및 개발을 지원하겠다는 취지다.

이번에 공개된 데이터셋은 거대언어모델(LLM)의 한국어 성능을 학술 및 교육 분야에서 강화하기 위해 설계됐다. 한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)와 한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu) 2종으로 구성된다.

한국어 파인웹 교육 데이터셋 데모는 영문 교육용 웹 텍스트 코퍼스인 FineWeb-Edu를 한국어로 번역한 데이터셋의 5%를 샘플 형태로 제공하는 것이다. 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 설계됐다. 원본 데이터셋은 약 1,900억 토큰 규모로 수천만 페이지 분량에 해당하며, 다국어 데이터와 함께 활용할 경우 파운데이션 모델 학습에 활용할 수 있는 수준이다.

함께 공개된 한국어 웹 텍스트 교육 데이터셋은 대규모 한국어 웹 텍스트에서 교육적 가치가 높은 콘텐츠만 선별해 구축한 것으로, 사실성과 문맥 일관성, 교육 적합성을 기준으로 평가해 구성했다.

엘리스그룹은 이번 공개를 통해 한국어 AI 연구의 진입 장벽을 낮추고, 교육과 연구, 공공 영역에서 한국어 AI 모델 활용을 지원할 계획이다. 또한 AI 인프라와 클라우드, 데이터 엔지니어링 역량을 연계해 한국어 특화 AI 서비스 개발을 가속화한다는 전략이다.

김수인 엘리스그룹 CRO는 "데이터 접근성과 품질은 AI 기술 발전의 핵심 요소"라며 "연구자와 개발자, 기업이 쉽게 활용할 수 있는 고품질 데이터셋을 구축했다"고 밝혔다. 이어 "데이터와 모델, 인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 기여하겠다"고 덧붙였다.


글 : 플래텀(editor@platum.kr)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1김민재 결승골 뮌헨
    김민재 결승골 뮌헨
  2. 2신정환 뎅기열 해명
    신정환 뎅기열 해명
  3. 3한동훈 제명 공멸
    한동훈 제명 공멸
  4. 4트럼프 베네수 임시 대통령
    트럼프 베네수 임시 대통령
  5. 5제주항공 참사 안유성
    제주항공 참사 안유성

플래텀 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD