인공지능(AI)을 활용해 법원 판결문에 포함된 개인정보를 99%까지 정밀하게 비공개 처리할 수 있는 기술이 개발됐습니다.
이재진 서울대학교 데이터사이언스대학원 교수 연구팀은 판결문 내 개인정보를 자동으로 식별하고 처리하는 'SNU Thunder-DeID' 모델을 선보였습니다.
해당 모델은 한국어 판결문 내 이름, 주소 기관명 등 개인 정보를 자동으로 식별하고 비식별화 합니다.
| |
초거대 AI모델 및 플랫폼 최적화 센터 / 사진 출처=웹페이지 |
이재진 서울대학교 데이터사이언스대학원 교수 연구팀은 판결문 내 개인정보를 자동으로 식별하고 처리하는 'SNU Thunder-DeID' 모델을 선보였습니다.
해당 모델은 한국어 판결문 내 이름, 주소 기관명 등 개인 정보를 자동으로 식별하고 비식별화 합니다.
연구팀은 강제추행, 폭행, 사기 등 세 가지 사건 유형의 판결문 4,500건에서 2만 7,000여 개의 개인정보를 추출했습니다.
이후 수작업으로 라벨링해 595종의 세분화된 개인식별정보 유형 체계를 수립, AI 학습 데이터를 구축했습니다.
그 결과 비식별화 대상 표현을 99% 이상의 정확도로 판별하고 이름·주소·기관명 등 세부 항목도 89% 이상의 정확도를 보였습니다.
특히 한국어의 언어적 특성을 반영한 비식별화용 토크나이저도 개발했습니다. 명사와 조사가 결합된 어절이 자주 등장하는 한국어의 교착어적 특성을 반영, '홍길동이'에서 ‘홍길동'만 정확히 비식별화하는 등 인식 능력을 높였습니다.
연구팀은 이번 연구 결과로 기존 수작업 중심의 비식별화 절차를 자동화해 처리 속도와 일관성을 대폭 향상할 수 있을 것이라고 기대했습니다.
비식별화는 개인을 특정할 수 있는 정보를 삭제하거나 대체해 개인정보 노출을 막는 기술입니다.
헌법 제109조에 따라 재판과 판결은 원칙적으로 공개돼야 합니다.
하지만 민감한 개인정보가 많고 특히 형사나 가사, 성범죄 사건은 피해자와 관계인의 정보가 그대로 노출될 수 있어 비식별화가 필수적입니다.
이번 연구는 개인정보 보호와 판결문 공개 지연 현상을 해소하는 데 기여할 것으로 보입니다.
향후 법원, 검찰, 변호사 단체 등에서 판결문과 재판기록물 공개를 위한 자동 비식별 처리 시스템으로도 활용 가능합니다.
연구팀은 앞으로 민사, 행정, 특허 소송 등 다양한 판례로 데이터셋을 확장해 법률 분야에 특화된 AI 언어모델 연구를 이어갈 계획입니다.
이번 연구는 과학기술정보통신부와 한국연구재단이 추진하는 선도연구센터(ERC)사업과 과학기술정보통신구와 광주광역시가 공동 지원한 '인공지능 중심 산업융합 집적단지 조성사업'의 지원을 받았습니다.
개발된 모델과 데이터는 '초거대 AI모델 및 플랫폼 최적화 센터' 웹페이지(https://champ.snu.ac.kr/?lang=ko) 를 통해 누구나 자유롭게 활용할 수 있습니다.
[한은정 디지털뉴스 기자 han.eunjeong@mbn.co.kr]
< Copyright ⓒ MBN(www.mbn.co.kr)무단전재 및 재배포 금지 >