ChatGPT 4o가 권고한 치료와 실제 치료의 일치 여부에 따른 환자 생존율 비교. (A) 전체 환자군에서 AI 권고와 일치한 치료를 받은 환자(빨간선)가 불일치 환자(파란선)보다 약간 나은 생존율을 보였다. (B) BCLC A단계(초기 간암)에서는 AI 권고 일치 환자군의 생존율이 유의하게 높았다(HR=0.626, P<0.001). (C) BCLC B단계에서는 소폭의 차이만 관찰됐다. (D) BCLC C단계(진행성 간암)에서는 오히려 AI 권고와 일치한 환자군의 생존율이 낮게 나타났다(HR=2.271, P<0.001). 이는 AI가 종양 특성 중심으로 판단하는 반면, 의사는 간기능과 전신 상태를 종합적으로 고려하기 때문으로 분석된다. |
[스포츠조선 장종호 기자] 가톨릭대학교 여의도성모병원 소화기내과 양경모 교수 연구팀(서울성모병원 소화기내과 한지원 교수)이 대규모 언어모델(LLM)이 실제 간암 치료 의사결정에서 어떤 역할을 할 수 있는지 평가한 결과를 발표했다.
연구는 국가 간암등록사업에 등재된 초치료 간세포암 환자 1만 3614명의 임상 데이터를 바탕으로 종양 특성, 간기능, 전신상태 등 구조화 정보를 입력해 LLM(ChatGPT·Gemini·Claude)의 치료 권고를 생성하고, 실제 시행된 치료와의 일치율과 생존결과를 비교 분석했다.
분석 결과, AI 권고와 실제 치료의 일치율은 27~33%로 나타났다. 병기별 하위분석에서는 일부 병기에서 AI 권고와 일치한 치료를 받은 환자군의 생존 차이가 관찰된 반면, 진행성 간암에선 오히려 일치군의 생존이 낮은 경향이 확인됐다.
의료진은 간기능, 전신상태, 합병증 위험 등 환자 개별 요소를 종합하는 데 비해, AI는 종양 크기·전이 여부 등 종양 중심 변수를 중시하는 경향이 있다고 연구팀은 분석했다. 임상 상황이 복잡할수록 AI 권고와 실제 치료 간 괴리가 커질 수 있음을 확인한 것이다.
양경모 교수(제1저자)는 "이번 연구는 AI가 간암 치료 의사결정에서 의미 있는 범위와 한계를 생존 자료로 평가했다는 점에서 의의가 있다"며 "AI는 가이드라인 기반 판단을 보조할 수 있으나, 치료 결정을 대신하는 주체가 될 수는 없다"고 말했다.
한지원 교수(교신저자) "진료 현장에서는 간기능, 치료 내성, 전신상태 등 정형화하기 어려운 요소가 치료를 좌우한다"며 "이번 결과는 임상의 판단 중요성을 대규모 실제 자료로 재확인한 것"이라고 강조했다.
연구팀은 영상과 임상정보를 결합한 다중모달 AI 개발과 AI 보조 전향적 임상연구의 필요성을 제시했다. 이번 연구는 의학 분야 국제학술지 '플로스 메디슨(PLOS Medicine)'에 최근 게재됐다.
장종호 기자 bellho@sportschosun.com
양경모 교수(왼쪽)와 한지원 교수 |































































