[박찬 기자]
메타가 불법 복제된 책을 이용해 인공지능(AI) 모델을 훈련했다는 결정적인 증거가 드러났다.
맬웨어 및 사이버 보안 전문 vx-언더그라운드는 8일(현지시간) 법원 기록을 근거로 메타가 AI 모델을 훈련하기 위해 불법 복제 토렌트를 사용해 81.7테라바이트(TB)의 데이터를 다운로드했다고 폭로했다.
이 사실은 코미디언 사라 실버맨과 타네히시 코츠를 포함한 작가 그룹이 메타와의 저작권 침해 소송을 통해 법원에 제출한 자료를 통해 밝혀졌다. 불법 데이터는 애나 아카이브(Anna's Archive), Z-라이브러리, 립젠(LibGen) 등을 포함한 섀도우 라이브러리가 출처다.
메타가 불법 복제된 책을 이용해 인공지능(AI) 모델을 훈련했다는 결정적인 증거가 드러났다.
맬웨어 및 사이버 보안 전문 vx-언더그라운드는 8일(현지시간) 법원 기록을 근거로 메타가 AI 모델을 훈련하기 위해 불법 복제 토렌트를 사용해 81.7테라바이트(TB)의 데이터를 다운로드했다고 폭로했다.
이 사실은 코미디언 사라 실버맨과 타네히시 코츠를 포함한 작가 그룹이 메타와의 저작권 침해 소송을 통해 법원에 제출한 자료를 통해 밝혀졌다. 불법 데이터는 애나 아카이브(Anna's Archive), Z-라이브러리, 립젠(LibGen) 등을 포함한 섀도우 라이브러리가 출처다.
지난달 메타는 수천만권의 불법 복제 도서를 포함한 논란의 데이터셋 립젠을 토렌트를 통해 다운로드했다고 인정했다. 구체적인 내용은 알려지지 않았는데, 메타의 내부 이메일이 처음으로 공개되며 세부 사항이 드러났다.
증거에 따르면 메타의 한 선임 연구원은 2022년 10월 "불법 복제 자료를 사용하는 것은 적절하지 않다고 생각한다. 우리는 이 부분에서 명확한 기준을 정해야 한다"라고 밝혔다. 또 다른 연구원은 "저작권을 침해하는 자료를 활용하는 것은 우리의 윤리적 한계를 넘는 행위"라며 "Sci-허브(Sci-Hub), 리서치게이트(ResearchGate), 립젠은 저작권 보호 콘텐츠를 무단으로 배포하고 있다"라고 지적했다.
그러나 2023년 1월 마크 저커버그 CEO가 회의에 참석해 "이 작업을 진행해야 한다. 이 문제를 해결할 방법을 찾아야 한다"라고 말한 뒤 방침이 바뀌었다는 것이다. 데이터셋에 저작권 논란이 있다는 것을 알면서도 사실상 인공지능(AI) 모델 학습에 사용하도록 승인한 것이라는 주장이다.
3개월 뒤 한 메타 직원은 다른 직원에게 메타의 IP 주소가 "불법 콘텐츠를 로딩하는 데 사용되는 것에 대해 우려스럽다"라는 메시지를 보냈다. 또 "회사 노트북에서 토렌트를 다운받는 것은 꽤 문제가 있는 것 같다"라며 낄낄거리는 이모티콘을 첨부했다.
https://twitter.com/vxunderground/status/1888019174133276846?s=03
이 밖에도 문서에서는 메타가 이런 불법 공유에 회사 인프라를 사용하지 않도록 조치를 취했다는 내용도 드러났다. 이를 통해 메타가 추적되지 않도록 했다는 것이다.
언고 측은 이런 내용이 메타의 불법 활동의 증거로 간주되며, 이는 저작권 법을 회피하려는 의도적인 행동으로 보인다고 주장했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































