최신 AI에 스파이가? LLM에 숨어 보안 위협하는 '악성 전문가' : zum 뉴스

LLM 효율 높이는 전문가 혼합 구조
일부 오픈소스 악의적으로 조작하면
AI 모델 안전성 크게 떨어질 수 있어

게티이미지뱅크

미국 구글의 제미나이, 중국 딥시크 등 주요 상용 거대언어모델(LLM)이 효율성을 높이기 위해 여러 개의 소규모 특화 인공지능(AI) 모델을 섞어 쓰는 ‘전문가 혼합(Mixture-of-Experts, MoE)' 구조가 새로운 보안 위협이 될 수 있다는 연구결과가 나왔다. 금융과 통신, 유통업계의 잇따른 개인정보 유출 사고에 불안감이 커진 상황에서 AI 서비스만큼은 보안 체계를 초기에 철저히 갖춰야 한다는 목소리에 힘이 실릴 것으로 보인다.

한국과학기술원(KAIST·카이스트)은 신승원 전기및전자공학부 교수와 손수엘 전산학부 교수 공동 연구팀이 전문가 혼합 구조를 악용해 LLM의 안전성을 심각하게 훼손할 수 있는 공격기법을 처음으로 알아냈다고 26일 밝혔다. 이번 연구는 정보보안 분야 국제학회 ‘연례 컴퓨터보안응용 콘퍼런스(ACSAC) 2025’에서 최우수논문상을 수상했다.

연구팀이 주목한 점은 전문가 혼합 구조의 독특한 작동 원리다. 이 구조를 이용한 LLM은 사용자의 질문에 따라 외부의 여러 전문가 AI 모델 중 일부를 선택해 답을 한다. 학습에 드는 비용을 줄일 수 있고, 상대적으로 적은 매개변수(파라미터)를 활용해도 답변 수준을 높일 수 있기 때문이다.

연구팀은 이 같은 특성이 보안 취약점이 될 수 있다고 분석했다. 예를 들어 오픈소스(개방형)로 유통되는 전문가 모델 일부를 악의적으로 조작해 둔다면, LLM이 이를 활용해 위험한 응답을 생성하면서 전체 AI의 안전성이 무너질 수 있다는 것이다. 이 같은 공격은 공격자가 상용 LLM의 내부 구조에 직접 접근하지 않아도 가능하다. 또 이 과정에서 모델의 성능 저하는 거의 나타나지 않아 문제를 사전에 발견하기 어렵다는 점이 특히 위험한 요소다.

실제로 연구팀이 페이스북 '라마', 알리바바의 '큐웬' 기반의 전문가 혼합 구조 모델을 구축해 모의 공격 실험을 한 결과, 유해 응답 발생률이 최대 80%까지 증가하는 것으로 분석됐다. LLM이 활용하는 다수의 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 떨어졌다. 특정 전문가 모델을 사용하는 과정이 반복될수록 그 영향력이 커지기 때문이다.

이번 연구는 앞으로 AI 모델 개발 과정에서 성능뿐만 아니라 전문가 모델의 출처와 안전성 검증이 필수임을 시사한다. 연구진은 “효율성을 위해 빠르게 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 연구를 통해 실증적으로 확인했다”며 “이번 수상은 AI 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 말했다.

신혜정 기자 arete@hankookilbo.com

최신 AI에 스파이가? LLM에 숨어 보안 위협하는 '악성 전문가'

AI 이슈 트렌드

한국일보 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템