카이스트 연구진이 전문가 혼합 구조의 취약점을 악용해 LLM의 안전성을 심각하게 저해할 수 있는 공격 기법을 규명했다. 사진은 AI로 만든 연구 개념도./카이스트 |
구글 제미나이를 비롯한 주요 상용 거대언어모델(LLM)은 효율을 높이기 위해 여러 개의 작은 모델을 상황에 따라 골라 쓰는 ‘전문가 혼합’ 구조를 폭넓게 활용하고 있다. 그런데 이 방식이 새로운 보안 위협의 통로가 될 수 있다는 점이 밝혀졌다.
카이스트의 신승원 전기및전자공학부 교수와 손수엘 전산학부 교수 공동 연구진은 전문가 혼합 구조의 취약점을 악용해 LLM의 안전성을 심각하게 저해할 수 있는 공격 기법을 규명했다고 26일 밝혔다. 이 연구는 지난 12일 미국 하와이에서 열린 정보보안 분야의 학회 ACSAC에서 최우수논문상을 수상했다. 올해 ACSAC 전체 논문 가운데 최우수 논문으로 선정된 연구는 단 2편뿐이다.
연구진이 주목한 지점은 전문가 혼합 구조의 작동 원리다. 입력 상황에 따라 여러 전문가 모델 중 일부를 선택해 답변을 생성하는데, 이 선택 과정이 반복될수록 특정 전문가 모델의 영향력이 커질 수 있다.
연구진은 공격자가 상용 LLM의 내부 구조에 직접 접근하지 않더라도, 외부에서 유통되는 전문가 모델 하나만 악의적으로 조작해 두면, 해당 전문가 모델이 특정 조건에서 반복 선택되도록 유도해 전체 모델이 위험한 응답을 생성하게 할 수 있음을 보였다.
쉽게 말해, 정상적인 전문가들이 다수 섞여 있더라도 그 사이에 악성 전문가가 단 한 개만 끼어 있으면 특정 상황에서 그 전문가가 호출되며 안전장치가 무너질 수 있다는 것이다. 더 큰 문제는, 이런 공격이 이뤄지는 동안에도 겉보기 성능 저하가 거의 나타나지 않아 개발·배포 단계에서 이상 징후를 조기에 포착하기 어렵다는 점이다. 연구진은 이러한 특성이 전문가 혼합 구조에서 위험도를 키우는 요소라고 지적했다.
실제로 연구진이 제안한 공격 기법을 적용하자, 유해 응답 발생률이 기존 0% 수준에서 최대 80%까지 증가할 수 있었고, 전문가가 다수인 환경에서도 단 하나의 전문가 모델만 감염되면 전체 LLM의 안전성이 크게 낮아질 수 있었다.
연구진은 “효율을 이유로 빠르게 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 실증적으로 확인했다”며 “이번 수상은 인공지능(AI) 보안의 중요성을 국제적으로 인정받았다는 점에서 의미가 크다”고 밝혔다.
참고 자료
LINK: https://jaehanwork.github.io/files/moevil.pdf
홍아름 기자(arhong@chosunbiz.com)
<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>




























































