사진 KAIST |
거대언어모델(LLM)의 효율성을 높이기 위해 많은 인공지능(AI) 기업들이 도입하고 있는 ‘전문가 혼합(MoE·Mixture-of-Experts)’ 기법이 오히려 AI 안전성을 근본부터 흔드는 위협 요소로 작용할 수 있다는 연구 결과가 나왔다.
━
무슨일이야
KAIST 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀은 MoE 구조를 악용해 LLM의 안전성을 훼손할 수 있는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. MoE는 여러 개의 작은 AI 모델, 이른바 ‘전문가 AI’를 두고 질문이나 상황에 따라 가장 적합한 전문가만 선택해 답변하도록 하는 방식이다. 모든 연산을 하나의 대형 모델이 처리하는 대신 특정 작업에 필요한 전문가만 불러 쓰기 때문에, 연산 비용을 줄이면서도 성능을 유지할 수 있어 최근 상용 AI 모델과 오픈소스 LLM 개발에서 빠르게 확산되고 있다.
연구팀은 실험을 통해 공격자가 단 하나의 ‘악성 전문가 AI’만 정상 전문가 AI들 사이에 섞어 넣으면 전체 LLM 시스템의 안전성이 급격히 무너질 수 있음을 확인했다. 실험 과정에서 이 같은 공격 기법을 적용하자 원래는 안전하던 AI의 유해 응답 발생률이 0%에서 최대 80%까지 급격히 증가한 것이다. LLM 전체를 해킹하거나 내부 구조에 직접 접근하지 않아도 가능한 작업이었다.
악성 전문가 AI는 평소에는 눈에 띄지 않다가 특정 질문이나 조건에서 반복적으로 선택돼 답변을 생성했다. 전체 AI는 정상적으로 작동하는 것처럼 보이지만, 특정 상황에서는 위험하거나 유해한 답변을 지속적으로 생성하게 되는 것. 보안이 강하게 적용된 거대언어모델 전체를 공격하는 것 보다 MoE 구조에 포함되는 개별 전문가 AI 모델을 노리는 방식이 공격자 입장에서 훨씬 쉬울 수 있다는 뜻이다.
MoE 악용한 공격 방법 개념도. 사진 KAIST |
━
이게 왜 중요해
최근 LLM 개발은 여러 기관과 개인이 공개한 모델을 조합해 사용하는 오픈소스 기반 방식이 빠르게 확산되고 있다. 전문가 AI 모델을 외부에서 가져와 활용하는 환경에서는 출처나 안전성이 충분히 검증되지 않은 모델 하나가 전체 시스템의 안전성을 위협할 수 있다는 점이 이번 실험을 통해 확인된 만큼, 개별 전문가 모델에 대한 검증이 필요하다는 지적이 나온다. 신승원·손수엘 교수는 “효율성을 위해 빠르게 확산 중인 MoE 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다”며 “AI 보안의 중요성을 국제적으로 인정받은 성과”라고 말했다. 이번 연구는 정보보안 분야 국제학회 'ACSAC 2025'에서 최우수논문상을 수상했다.
권유진 기자 kwen.yujin@joongang.co.kr
▶ 중앙일보 / '페이스북' 친구추가
▶ 넌 뉴스를 찾아봐? 난 뉴스가 찾아와!
ⓒ중앙일보(https://www.joongang.co.kr), 무단 전재 및 재배포 금지




























































