컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
디지털투데이 언론사 이미지

AI 탈옥 95% 막는다…앤트로픽 신기술 '입헌 분류자' 공개

디지털투데이
원문보기
[AI리포터]
[사진: 앤트로픽(Anthropic)]

[사진: 앤트로픽(Anthropic)]


[디지털투데이 AI리포터] 앤트로픽이 AI의 탈옥 저항성을 대폭 높이는 기술인 '입헌 분류자'(Constitutional Classifiers)를 발표했다.

AI에서 탈옥은 프롬프트를 조작하거나 한 번에 많은 질문을 입력하는 방법이다. 대부분의 AI 모델은 위험한 정보를 출력하지 않도록 학습되어 있지만, 탈옥을 통해 AI 모델이 출력이 금지된 정보를 출력하도록 할 수 있다.

앤트로픽은 입헌 분류자를 개발하기에 앞서 무해한 것과 유해한 것을 정의하는 '헌법'을 작성한 후, 이를 AI 모델 클로드에 입력해 다양한 탈옥 방법과 언어에 대응할 수 있는 분류기를 만들어냈다.

또한 입헌 분류자의 효과를 검증하기 위해 '인간 테스트'와 '자동 테스트'를 실시했다. 인간 테스트에서는 클로드 3.5 소네트에 이 기술을 적용한 후 참가자에게 보편적인 탈옥 방법을 찾는 과제를 부여했다. 탈옥 방법을 발견한 사람에게는 최대 1만5000달러의 포상금이 약속되었으나, 2개월 동안 발견되지 않았다.

자동 테스트에서는 1만개의 탈옥 프롬프트를 작성해 '기술을 적용하지 않은 클로드 3.5 소네트'와 '기술을 적용한 클로드 3.5 소네트'에 공격을 실행했다. 그 결과, 기술을 적용하지 않은 경우 86%의 성공률을 보였으나, 적용한 경우에는 4.4%로 감소했다. 이는 탈옥 공격을 95% 이상 차단한 것이다.

앤트로픽은 향후 입헌 분류자 기술을 개선해 AI 모델의 계산 비용을 줄이는 데 임할 것이라고 밝혔다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1김우빈 신민아 결혼
    김우빈 신민아 결혼
  2. 2트럼프 엡스타인 파일 논란
    트럼프 엡스타인 파일 논란
  3. 3송성문 샌디에이고 계약
    송성문 샌디에이고 계약
  4. 4손흥민 볼리비아 프리킥
    손흥민 볼리비아 프리킥
  5. 5오세훈 강북횡단 지하고속도로
    오세훈 강북횡단 지하고속도로

디지털투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD