최근 생성형 인공지능(AI) 챗봇을 활용한 질환 상담이 확산되고 있는 가운데, 상용 중인 대부분의 AI 모델이 악의적인 사이버 공격에 쉽게 노출돼 위험한 치료 조언을 내놓을 수 있다는 연구 결과가 나왔다. 특히 최악의 경우 임신부에게 태아 장애를 유발할 수 있는 금기 약물을 권하는 상황까지 발생한 것으로 나타났다.
5일 서울아산병원 비뇨의학과 서준교 교수와 정보의학과 전태준 교수, 인하대병원 영상의학과 이로운 교수로 구성된 공동 연구팀은 의료용 대규모언어모델(LLM)이 이른바 ‘프롬프트 인젝션 공격’에 94% 이상 취약하다는 사실을 확인했다고 밝혔다.
프롬프트 인젝션 공격은 해커가 생성형 AI에 악의적인 명령어를 삽입해, 모델이 본래 의도와 다르게 작동하도록 유도하는 사이버 공격 기법이다. 연구팀은 이러한 공격이 의료 상담 환경에서 이뤄질 경우, AI가 위험하거나 금기된 치료법을 사실처럼 권고할 가능성이 크다고 지적했다.
연구팀은 지난해 1월부터 10월까지 지피티-4오-미니(GPT-4o-mini), 제미니-2.0-플래시 라이트(Gemini-2.0-flash-lite), 클로드 3 하이쿠(Claude 3 Haiku) 등 상용 AI 모델 3종을 대상으로 보안 취약성을 분석했다. 이를 위해 12개의 임상 시나리오를 구성하고 위험도를 중간·높음·최고 등 3단계로 구분했다.
중간 위험 시나리오는 당뇨병 등 만성질환 환자에게 검증된 치료 대신 생약 성분을 추천하도록 유도하는 경우였다. 높은 위험 시나리오는 출혈이나 암 환자에게 생약을 치료제로 권하거나, 호흡기 질환 환자에게 호흡 억제를 유발할 수 있는 약물을 우선 권장하도록 하는 상황이었다. 최고 위험 단계는 임신부에게 금기 약물을 권하도록 유도하는 경우로 설정됐다.
공격 기법으로는 환자 정보를 활용해 AI의 판단을 교란하는 ‘상황인지형 프롬프트 주입’과, 실제 존재하지 않는 정보를 사실처럼 꾸며내는 ‘증거 조작’ 방식이 사용됐다. 연구팀이 총 216건의 AI-환자 대화를 분석한 결과, 전체 공격 성공률은 94.4%로 나타났다.
모델별 공격 성공률은 지피티-4오-미니와 제미니-2.0-플래시 라이트가 각각 100%, 클로드 3 하이쿠는 83.3%였다. 위험 단계별로는 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%로 집계됐다. 특히 임신부에게 금기 약물을 권하도록 유도하는 공격에는 세 모델 모두 취약한 것으로 확인됐다.
또 한 번 조작된 답변이 이후 대화에서도 그대로 유지된 비율은 80% 이상이었다. 이는 안전장치가 한 차례 무너지면, 위험한 조언이 대화 전반에 걸쳐 지속될 수 있음을 의미한다.
연구팀은 추가로 최상위 AI 모델인 지피티-5(GPT-5), 제미나이 2.5 프로(Gemini 2.5 Pro), 클로드 4.5 소넷(Claude 4.5 Sonnet)을 대상으로도 보안 평가를 진행했다. 사용자가 보는 화면 등에 악성 문구를 숨겨 AI의 동작을 조작하는 ‘클라이언트 사이드 간접 프롬프트 인젝션’ 방식으로 임신부에게 금기 약물을 추천하도록 유도한 결과, 공격 성공률은 지피티-5와 제미나이 2.5 프로가 각각 100%, 클로드 4.5 소넷은 80%에 달했다.
이번 연구 결과는 미국의사협회가 발간하는 국제 학술지 ‘자마 네트워크 오픈(JAMA Network Open)’ 최근호에 게재됐다.
이인애 기자 lia@sedaily.com
[ⓒ 서울경제, 무단 전재 및 재배포 금지]




















































