중국, 인터넷 검열 위해 13만개 사례로 학습한 LLM 활용

AI타임스

입력: 2025-03-29 18:54

[박찬 기자]

(사진=셔터스톡)

중국 정부가 사상 검열을 위해 인터넷에서 민감한 콘텐츠를 자동으로 식별하는 대형언어모델(LLM)을 개발한 정황이 포착됐다.

테크크런치는 27일(현지시간) 유출된 데이터베이스를 분석, 중국 정부가 온라인 검열을 목적으로 인공지능(AI) 모델 훈련에 활용한 데이터의 내용을 공개했다.

이 데이터베이스에는 '중국 농촌 지역의 빈곤'이나 '부패한 공산당 당원에 대한 뉴스 보도' '기업가를 괴롭히는 부패 경찰에 대한 도움 요청' 등 13만3000개의 사례가 포함돼 있다. 이는 이미 알려진 천안문 사태나 시진핑 국가 주석과 같은 전통적인 금기 주제를 넘어서는 것이다.

이 데이터는 넷아스카리(NetAsari)라는 보안 전문가가 바이두 서버에 호스팅된 일래스틱서치(Elasticsearch) 데이터베이스에서 발견한 것이다.

데이터셋의 제작자는 확인되지 않았으나, 다양한 조직이 일래스틱서치에 데이터를 저장해왔던 것으로 추정했다.

데이터셋은 크기가 약 300기가바이트(GB)에 달하며 JSON 파일로 구성됐다. 여기에는 2024년 12월까지의 정보가 포함됐다.

이 데이터셋으로 훈련된 LLM은 정치와 사회, 군사 등 민감한 주제의 키워드를 발견하면, 이를 '최우선 순위'로 표시한다. 주요 감시 대상에는 종종 중국에서 시위로 이어지는 오염 문제나 식품 안전사고, 금융 사기, 노동 분쟁 등이 포함됐다.

특히 '정치 풍자'는 엄격한 검열 대상로, 현 정치인을 우회적으로 비판하는 경우에도 즉시 경고가 발동한다. 대만 정치 관련 내용도 예외 없이 검열된다. 군사 이동, 훈련, 무기 관련 보고서 등 군사 관련 정보도 마찬가지다.

이 데이터셋에는 "여론 작업을 목적으로 한다"라고 명시돼 있으며, 이는 중국 정부를 지원하는 것으로 보인다는 분석이다.

실제로 시진핑 주석은 인터넷을 공산당의 '여론 작업'의 최전선이라고 언급한 바 있다. 여론 작업은 중국 사이버공간 관리국(CAC) 소관으로, 이 기관은 중국 내 인터넷과 AI 서비스를 총괄 감독하고 있다.

중국 검열 전문인 샤오 창 UC 버클리 연구원은 데이터셋에 대해 "중국 정부 또는 관계 기관이 LLM을 억압 강화를 위한 도구로 활용하려 한다는 명확한 증거"라고 말했다.

또 "기존 검열 방식은 키워드 필터링과 수작업 검토에 의존하지만, LLM을 사용하면 정보 통제의 효율성과 정확도가 크게 향상될 것"이라고 강조했다.

오픈AI도 지난 2월 여러 중국 기관이 LLM을 사용해 반정부 게시물을 감시하고 반체제 인사를 비방한 사례를 적발한다고 밝힌 바 있다.

이에 대해 중국 대사관은 "중국을 향한 근거 없는 공격과 비방에 반대한다"라며 "중국은 윤리적인 AI 개발을 매우 중요하게 여긴다"라고 반박했다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

전체 댓글 0

댓글 운영정책

당신의 생각을 남겨주세요

0 / 1000

로그인 후 댓글을 작성해 주세요

댓글 블라인드 기능으로 악성댓글을 가려보세요!

블라인드

OFF

아직 댓글이 없습니다.

댓글 게시 제한 기준

글 본문에서 익명으로 처리된 인물의 실명이나 모자이크 처리된 사진의 원본 등을 공개하거나 해당 정보가 있는 웹페이지의 링크를 게시한 글
타인의 주민번호, 전화번호, 이메일주소 등의 개인정보를 당사자의 동의 없이 유포하는 글
욕설 또는 비속어를 사용하거나 국가/민족/인종/성별/지역/종교/빈부/교육/직업 등에 관해 차별이나 비하, 편견을 조장하는 내용을 담은 글
사실이 확인되지 않은 소문을 유포해 특정인 또는 특정 단체의 권리와 이익을 침해하는 글
상품 광고, 돈 벌기 사이트, 경품 지급, 사이트 링크 등 상업성 광고 게시글
댓글로 인해 권리를 침해당한 당사자가 해당 게시물에 대해 직접 삭제를 요청하는 경우
폭력∙사기 등 범죄를 유도하거나 관련 내용을 게시한 글
자살 등을 유도하거나 모의와 관련한 글. 생명을 경시하는 내용과 표현이 있는 글
윤락행위∙원조교제 등 불법 행위와 관련한 글. 또한 신체 특정 부위를 뜻하는 비속어를 사용한 저속한 게시글
줌인터넷 임직원을 사칭해 허위 내용을 유포하거나 특정한 행위를 유도하는 경우
청소년보호법에 근거 청소년에 유해하다고 판단되는 글
기타 관련 법률 및 약관을 위배하는 글

댓글 쓰기 제한 기준

위 댓글 게시 제한 기준에 해당하는 댓글을 반복해 게시하거나 타인의 댓글에 허위 신고를 하는 사용자는 경고 누적 정도에 따라 3일 혹은 무기한 댓글 쓰기가 제한 될 수 있습니다.
개인정보 유출, 명예훼손 등에 따른 피해가 확대되지 않도록 개별 기사의 댓글 쓰기 기능을 임시로 막을 수 있습니다.
상습적 홍보∙상업∙음란 글 게시자, 악의적 개인 인권 침해자, 그리고 댓글을 통해 서비스 이용에 심각한 악영향을 미치는 사용자는 경고 누적 정도에 관계 없이 무기한 댓글 쓰기가 제한 될 수 있습니다.
특정 IP를 통해 위 항목과 같은 사례가 발생하는 경우, 해당 IP에 대해 무기한 댓글 쓰기를 제한 할 수 있습니다.
글쓰기 제한은 서비스 내 모든 댓글과 게시판에 함께 적용됩니다.
부당하게 글쓰기 제한 조치를 받으신 이용자께서는 고객센터 고객센터 를 통해 의견을 접수하실 수 있습니다.

레이어 닫기

지금 봐야할 뉴스

서울신문“제 짝지 장제원, 이미 죽음으로 업보”…하태경의 조의문
뉴시스'남학생 학대·추행' 40대 과외선생님, 2심 감형…징역 8년
머니투데이"면제 없다"해도 끝까지 구애…트럼프에 '선물' 안기는 나라들
뉴스핌美 상호 관세 임박에 印 산업계 '초긴장'..."농업 종사자 7억 명에 부담"

ZUM 뉴스

중국, 인터넷 검열 위해 13만개 사례로 학습한 LLM 활용

지금 봐야할 뉴스

쇼핑 핫아이템

글자크기 조절

중국, 인터넷 검열 위해 13만개 사례로 학습한 LLM 활용

지금 봐야할 뉴스

쇼핑 핫아이템

공유하기

글자크기 조절