컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
디지털데일리 언론사 이미지

과기정통부·NIA가 제시하는 AI 데이터 품질관리 기준은?

디지털데일리 이나연 기자
원문보기
AI 데이터 품질관리 가이드라인 3.5 발간

[디지털데일리 이나연기자] 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 고품질 데이터 생태계 마련을 위한 고도화된 기준을 제시했다. 이 가이드라인은 급변하는 인공지능(AI) 기술 환경 속에서 현장 실무자가 즉시 적용 가능한 품질관리 도구로 활용될 것으로 보인다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)는 'AI 데이터 품질관리 가이드라인 v3.5'를 공개했다고 4일 밝혔다.

AI데이터 품질 가이드라인은 2021년 버전 1.0을 시작으로 매년 고도화 해왔다. 올해 3.5 버전은 작년 대비 데이터 구축 방법론을 추가하고 생성형AI 데이터 특화 기준을 강화했다. '초거대AI 확산 생태계 조성사업' 실증 경험을 반영해 최신 기술 변화와 산업 수요를 아우른 게 특징이다.

1권은 AI 데이터 품질관리의 전체 프레임워크와 체계를 다룬다. 데이터 획득·수집과 정제, 가공 ,학습의 전 공정에 걸친 품질관리 프로세스를 안내한다. 특히 '데이터 품질 주요 특성'을 중심으로 데이터 형태와 전문 도메인을 고려한 900종 이상의 품질지표 선정 실증 사례를 전부 수록했다.

2권은 다양한 유형의 데이터를 선정해 구축 과정을 상세히 기재한 '케이스 스터디' 형태로 제공한다. 예를 들어, 한국 전통 문양 데이터는 문양의 의미와 특징을 설명하는 캡셔닝 데이터로 구축돼 K-컬처의 특성을 고려한 시각 정보 다양성을 확보했다.

위암 병리 합성 데이터는 병리 영상의 미세한 패턴을 반영해 실제와 유사한 합성 이미지를 생성해 의료 데이터의 합성 과정에서 직면할 수 있는 문제를 해결하는 과정을 보여준다.


생성형AI 시대에 요구되는 품질관리 체계를 새롭게 정립하려는 시도도 있다. 3권은 생성형AI 데이터에 특화된 품질관리 기준을 다루며, 거대언어모델(LLM)뿐만 아니라 이미지·음성·텍스트 등 다양한 멀티모달모델(LMM)에 맞춘 방법론을 별도 제시한다.

최근 주목 받는 '합성 데이터' 품질관리 체계도 다룬다. AI가 생성한 데이터를 다시 AI 학습에 활용할 때의 품질관리 방법, 실제 데이터와의 적절한 혼합 비율 등 실무적인 가이드를 제공한다.

이러한 내용의 가이드라인은 수많은 AI 데이터 구축 과제와 기관들에서 실무 운영 지침으로 참조 레퍼런스로 채택되고 있다. 국방부 산하 한국국방연구원과 국방분야 전문기관, 경찰청 등이 과기정통부·NIA 가이드라인을 참조해 자체 가이드라인을 수립했거나 관련 기준을 마련 중이다.

신신애 NIA 인공지능데이터본부장은 "이번 가이드라인은 AI 데이터 품질기준에 대한 표준 안내서가 되도록 실제 사례와 검증된 방식을 기반으로 구성했다"며 "국내 AI 데이터 품질 기준을 선도하는 기준서로 가이드라인을 발전시킬 것"이라고 말했다.

이 기사는 한국지능정보사회진흥원(NIA)의 협찬을 받아 작성된 기사임을 밝힙니다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1박원숙 컨디션 난조
    박원숙 컨디션 난조
  2. 2윤정수 원진서 결혼
    윤정수 원진서 결혼
  3. 3통일교 특검 수사
    통일교 특검 수사
  4. 4박지훈 정관장 삼성 승리
    박지훈 정관장 삼성 승리
  5. 5김장훈 미르 신부 얼굴 노출 사과
    김장훈 미르 신부 얼굴 노출 사과

디지털데일리 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD