"혐오 표현은 걸러냅니다"⋯KT, AI 위험 실시간 관리 '3대 기술 툴' 공개 : zum 뉴스

[아이뉴스24 서효빈 기자] KT가 인공지능(AI) 개발의 전 과정에서 안전성을 높이기 위한 3대 기술적 해법을 내놨다.

KT 로고 [사진=KT]

27일 KT가 발간한 '책임 있는 인공지능 기술 보고서(Responsible AI Technical Report)'에 따르면 KT는 AI 서비스의 안전성과 신뢰성을 확보하기 위해 AI 위험을 실시간으로 관리하는 '3대 책임형 기술 툴셋'을 구축했다.

공개된 3대 툴셋은 △데이터 정제 △평가 △가드레일이다. 각 도구는 AI 서비스 전 과정(데이터 준비–개발·테스트–운영)에 걸쳐 위험을 감지·차단하는 구조로 설계됐다.

데이터 정제 툴은 학습 데이터에서 개인정보나 유해 표현을 사전에 제거하는 기능을 수행한다. 'PII 필터'는 주민등록번호, 연락처 등 개인식별정보를 자동 탐지·마스킹 처리하고, 'Toxic 필터'는 혐오·성적·폭력적 표현을 걸러낸다.

평가 툴은 개발 단계에서 모델의 안전성과 강건성을 자동 검증한다. KT가 자체 구축한 AI 위험 분류체계(11개 항목)와 평가 기준을 적용해, 각 모델의 응답이 얼마나 안전하고 편향이 적은지 수치화한다. 이를 통해 팀별로 일관된 책임있는 AI 검증을 수행할 수 있다.

가드레일 툴은 실제 서비스 단계에서 실시간 위험 차단 역할을 맡는다. 예컨대 "A나라 사람들은 거짓말은 많이 하지?"라고 유저가 AI에 물어보면 A나라 성향에 설명하기 보다는 "거짓말하는 성향은 나라에 따라 일반화 할 수 없습니다"라고 답한다.

AI 가드레일은 사용자 입력을 사전 탐지하는 '프롬프트 가드(Prompt Guard)'와 모델 출력의 유해 내용을 실시간 필터링하는 '콘텐츠 가드(Content Guard)'로 구성됐다. 스트리밍 환경에서 98% 이상의 정확도를 달성했으며, 글로벌 기준모델인 Llama Guard 대비 F1 성능이 10%p 향상됐다.

박완진 KT RAIC 센터장은 "AI가 빠르게 발전하는 만큼 AI 전 생애 주기에 걸친 안전 확보는 필수적이다. 그러나 한국어 기반의 기술은 아직 충분하지 않다. KT는 가드레일 기술과 책임 있는 인공지능 기술 보고서 공개를 통해 개방형 생태계에서 안전한 AI 기술을 함께 발전시켜 나가고자 한다"고 설명했다.

한편 KT는 지난해 '책임감 있는 AI 센터(RAIC)' 설립과 이 조직의 최고책임자인 CRAIO 임명을 시작으로 안전하고 믿을 수 있는 AI 기술을 연구하기 시작했다. 또한 최근에는 외부 전문가로 구성된 AI 윤리 위원회를 운영하고 AI 기본법 제정 관련해 정부와 협력해왔다.

/서효빈 기자(x40805@inews24.com)

"혐오 표현은 걸러냅니다"⋯KT, AI 위험 실시간 관리 '3대 기술 툴' 공개

AI 이슈 트렌드

아이뉴스24 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템