컨텐츠로 건너뛰기
뉴스
서울
맑음 / 1.0 °
AI타임스 언론사 이미지

"메타, 불법 도서 82TB 분량 토렌트로 전송해 AI에 학습"

AI타임스 박찬
원문보기
[박찬 기자]

메타가 불법 복제된 책을 이용해 인공지능(AI) 모델을 훈련했다는 결정적인 증거가 드러났다.

맬웨어 및 사이버 보안 전문 vx-언더그라운드는 8일(현지시간) 법원 기록을 근거로 메타가 AI 모델을 훈련하기 위해 불법 복제 토렌트를 사용해 81.7테라바이트(TB)의 데이터를 다운로드했다고 폭로했다.

이 사실은 코미디언 사라 실버맨과 타네히시 코츠를 포함한 작가 그룹이 메타와의 저작권 침해 소송을 통해 법원에 제출한 자료를 통해 밝혀졌다. 불법 데이터는 애나 아카이브(Anna's Archive), Z-라이브러리, 립젠(LibGen) 등을 포함한 섀도우 라이브러리가 출처다.

지난달 메타는 수천만권의 불법 복제 도서를 포함한 논란의 데이터셋 립젠을 토렌트를 통해 다운로드했다고 인정했다. 구체적인 내용은 알려지지 않았는데, 메타의 내부 이메일이 처음으로 공개되며 세부 사항이 드러났다.

증거에 따르면 메타의 한 선임 연구원은 2022년 10월 "불법 복제 자료를 사용하는 것은 적절하지 않다고 생각한다. 우리는 이 부분에서 명확한 기준을 정해야 한다"라고 밝혔다. 또 다른 연구원은 "저작권을 침해하는 자료를 활용하는 것은 우리의 윤리적 한계를 넘는 행위"라며 "Sci-허브(Sci-Hub), 리서치게이트(ResearchGate), 립젠은 저작권 보호 콘텐츠를 무단으로 배포하고 있다"라고 지적했다.

그러나 2023년 1월 마크 저커버그 CEO가 회의에 참석해 "이 작업을 진행해야 한다. 이 문제를 해결할 방법을 찾아야 한다"라고 말한 뒤 방침이 바뀌었다는 것이다. 데이터셋에 저작권 논란이 있다는 것을 알면서도 사실상 인공지능(AI) 모델 학습에 사용하도록 승인한 것이라는 주장이다.


3개월 뒤 한 메타 직원은 다른 직원에게 메타의 IP 주소가 "불법 콘텐츠를 로딩하는 데 사용되는 것에 대해 우려스럽다"라는 메시지를 보냈다. 또 "회사 노트북에서 토렌트를 다운받는 것은 꽤 문제가 있는 것 같다"라며 낄낄거리는 이모티콘을 첨부했다.

https://twitter.com/vxunderground/status/1888019174133276846?s=03

이 밖에도 문서에서는 메타가 이런 불법 공유에 회사 인프라를 사용하지 않도록 조치를 취했다는 내용도 드러났다. 이를 통해 메타가 추적되지 않도록 했다는 것이다.


언고 측은 이런 내용이 메타의 불법 활동의 증거로 간주되며, 이는 저작권 법을 회피하려는 의도적인 행동으로 보인다고 주장했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1시드니 총격 테러
    시드니 총격 테러
  2. 2재키와이 데이트 폭력
    재키와이 데이트 폭력
  3. 3석현준 용인FC 입단
    석현준 용인FC 입단
  4. 4러시아 유로클리어 소송
    러시아 유로클리어 소송
  5. 5리헤이 뮤지컬 시지프스
    리헤이 뮤지컬 시지프스

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD