컨텐츠로 건너뛰기
뉴스
서울
흐림 / 7.0 °
한국일보 언론사 이미지

[트렌드줌인] AI 구원자로 부상한 합성 데이터

한국일보
원문보기

인공지능(AI) 이용이 늘어나면서 주목받는 것이 합성 데이터(synthetic data)다. 합성 데이터는 실제 자료를 토대로 만든 인공 자료다. AI가 실제 자료의 구조와 형태 등을 학습해 유사하게 만든다.

합성 데이터를 만드는 이유는 비용과 시간 절약, 민감한 자료 확보 문제 때문이다. AI 학습에 필요한 많은 자료를 일일이 수집하려면 시간과 비용이 많이 든다. 따라서 합성 데이터로 대체하면 AI 개발에 필요한 시간과 비용을 줄일 수 있다.

또 민감한 정보를 보호할 수 있다. 예를 들어 의료 AI 개발을 위해 환자 자료를 활용할 경우 누구인지 알 수 있는 이름과 전화번호, 주소 등 개인정보를 가려야 한다. 국방이나 산업설비 등 국가와 기업의 기밀을 다루는 AI도 학습할 때 특정 정보를 노출하지 않도록 주의해야 한다. 이때 합성 데이터를 만들어 AI를 학습시키면 개인 정보를 침해하거나 국가 및 기업 비밀을 노출하는 위험을 피할 수 있다.

희귀 자료를 확보할 수도 있다. 예를 들어 화산 폭발처럼 자주 발생하지 않는 재난 자료나 폭격 등 전시 상황에서 발생하는 자료 등은 일상에서 얻기 어렵다. 이런 경우 인공으로 합성 데이터를 만들어 활용할 수밖에 없다.

이처럼 여러 이유로 많은 기업이 합성 데이터를 AI 학습에 활용하고 있다. 미국 AI개발업체 오픈AI는 'GPT4'보다 강력한 성능의 '오리온' AI 개발에 합성 데이터를 사용하고 있으며 구글과 마이크로소프트, 앤트로픽 등도 AI 학습에 합성 데이터를 투입했다. 미국 전기자동차 업체 테슬라는 도로 위 돌발상황이나 각종 사고 등을 합성 데이터로 만들어 자율주행 훈련을 한다.

국내에서는 국방 AI를 개발하는 신생기업(스타트업) 펀진이 AI용 합성 데이터를 생성하는 도구인 '이글아이'를 개발해 활용한다. 이글아이는 정찰, 위협탐지 등 수집이 어려운 군의 작전 환경 자료를 자동 생성한다.


펀진에서 개발한 AI용 합성 데이터 생성 소프트웨어 '이글아이'로 만든 잠수함 이미지들. 펀진 제공

펀진에서 개발한 AI용 합성 데이터 생성 소프트웨어 '이글아이'로 만든 잠수함 이미지들. 펀진 제공


합성 데이터의 중요성이 커지면서 관련 스타트업을 인수하는 대기업들도 있다. AI 반도체를 만드는 엔비디아는 지난 3월 합성 데이터 플랫폼 업체 그레텔을, 기업용 소프트웨어 개발업체 SAS는 지난해 11월 합성 데이터 플랫폼 업체 헤이지를 각각 인수했다.

앞으로 합성 데이터의 중요성은 더 커질 전망이다. 가트너는 2028년까지 합성 데이터가 AI 학습에 필요한 자료의 80%를 차지할 것으로 내다봤다. 다만 잘못된 합성 데이터가 AI의 정확성을 떨어뜨릴 수 있어 이를 해결하기 위한 기술 개발 등이 과제다.

최연진 IT전문기자 wolfpack@hankookilbo.com

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1허훈 트리플더블
    허훈 트리플더블
  2. 2이재명 호남 애정
    이재명 호남 애정
  3. 3김아랑 은퇴
    김아랑 은퇴
  4. 4하츠투하츠 신인상
    하츠투하츠 신인상
  5. 5신민아 김우빈 결혼
    신민아 김우빈 결혼

한국일보 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD