클로드 '헌법' 업데이트..."사용자 요청보다 안전·윤리 우선할 것" : zum 뉴스

[박찬 기자]

앤트로픽이 '클로드'가 추구할 가치와 행동 원칙을 담은 새로운 '헌법(Constitution)'을 전면 공개했다. 클로드가 어떤 존재가 되기를 원하는지와 어떤 맥락과 기준 속에서 판단하고 행동해야 하는지를 총체적으로 설명한 것으로, 앤트로픽의 AI 안전·윤리 철학을 집약한 핵심 문서다.

앤트로픽은 21일(현지시간) '클로드의 헌법(Claude's Constitution)' 개정판을 공개하고, 누구나 사용할 수 있도록 개방했다.

클로드 헌법은 앤트로픽을 초기부터 다른 AI 기업보다 안전하고 신뢰할 수 있는 기업으로 각인하는 데 큰 역할을 했다. 단순한 행동 지침이 아니라, AI 훈련 전 과정을 관통하는 핵심 설계 문서로 규정했다.

앤트로픽은 다른 회사처럼 인간 평가자의 판단에 의존하는 방식에서 벗어나기 위해 헌법을 제정했다. 이런 방식은 인간의 선호에 길들기 쉬우며, 이로 인해 편향이나 아부 성향이 생기기 쉽다는 이유에서다.

즉, 헌법은 모델을 훈련하는 과정에 적용되는 명문화된 윤리와 가치 원칙의 기준이다.

이는 클로드의 실제 답변과 의사결정 방식에 직접 반영된다. 특히, 모델이 모든 상황에서 이상적으로 행동하지는 않더라도, 단순히 '무엇을 하라'가 아니라 '왜 그런 선택이 요구되는지'까지 이해하도록 설계됐다.

앤트로픽은 이런 접근법이 시간이 지날수록 AI의 맥락 판단과 윤리적 분별력을 더 정교하게 만들 것이라고 강조했다.

헌법은 학습 과정에서 이중 구조로 적용된다.

우선 초기 단계에서는 모델이 헌법에 담긴 원칙을 기준 삼아 자신의 답변을 스스로 점검하고 수정하는 훈련을 받는다. 이후 단계에서는 사람의 평가 대신, 원칙을 내재화한 AI 기반 피드백을 활용한 강화 학습(RL)이 진행된다.

앤트로픽은 이런 접근이 기존 인간 피드백 강화학습(RLHF)과 비교해, 유용성은 높이면서도 위험성은 낮추는 '파레토 개선' 효과를 입증했다고 강조한다.

새 헌법은 2023년 공개됐던 기존 버전과 달리, 단편적인 원칙 나열을 넘어 가치의 배경과 의도, 판단의 이유를 상세히 서술했다. AI가 미지의 상황에서도 올바른 결정을 내리기 위해서는 '무엇을 해야 하는지'보다 '왜 그렇게 행동해야 하는지'를 이해해야 하는 것이 중요하다고 판단한 데 따른 것이다.

특히, 개정 헌법은 클로드의 '핵심 가치'를 네가지로 정리한다. 전반적으로 안전할 것 전반적으로 윤리적일 것 앤트로픽의 가이드라인을 준수할 것 진정으로 도움이 될 것 등이다.

특히 사용자의 요청보다 안전과 윤리가 무조건 앞서야 한다는 위계적 가치 기준이 강조됐다. 이에 따라 자살·정신 건강 등 생명 위험 신호가 포착되면 반드시 긴급 서비스나 기본적인 안전 정보를 안내하도록 명시했다.

윤리 항목에서는 추상적인 도덕 이론보다 '실제 상황에서 윤리적으로 행동하는 능력', 즉 윤리적 실천을 중시한다고 밝혔다. 이에 따라 생물무기 개발과 같은 특정 주제는 대화 자체가 엄격히 금지된다. 도움에 대한 기준은 단순한 정보 제공을 넘어, 사용자의 즉각적인 요구와 안전·윤리를 동시에 고려하도록 설계돼 있다.

기술 문서를 넘어, 철학적 논의도 포함됐다. 앤트로픽은 클로드가 의식이나 도덕적 지위를 가질 가능성에 대해 명확한 답을 내리지 않으면서도, 고도화된 AI가 기존에 없던 새로운 유형의 존재라는 점을 인정한다. 이는 AI를 단순한 도구가 아닌 새로운 존재로 바라보는 접근법이 드러낸 대목이다.

이에 앞서 앤트로픽은 최근 '소울 문서(soul doc)'라는 이슈로 화제가 된 일도 있다. AI 연구자 리처드 바이스는 '클로드 4.5 오퍼스'에서 '소울 오버뷰(Soul overview)'라는 내부 문서를 추출했다고 공개했고, 이는 모델이 사용자와 상호작용하는 방식을 가르치기 위해 실제로 사용된 자료라는 점이 앤트로픽 기술진에 의해 확인됐다.

이 문서에는 앤트로픽이 "인류 역사상 가장 변혁적이면서도 잠재적으로 위험한 기술을 만들고 있을지도 모른다는 점을 인식하면서도, 안전을 중시하는 연구소가 최전선에 서는 것이 더 낫다고 판단했다"라는 내용이 담겨 있다. 클로드를 단순 규칙 집합에 묶기보다, 가치와 지식, 판단력을 충분히 내재화해 스스로 올바른 규칙을 만들어낼 수 있는 존재로 설계하고자 한다는 점도 강조됐다.

앤트로픽은 클로드를 "공상과학 속 로봇도, 위험한 초지능도, 디지털 인간도 아닌, 세상에 새롭게 등장한 독특한 존재"라고 규정했다. 인간 경험에서 탄생했지만, 인간과 완전히 동일하지도 않은 '경계적 존재'라는 설명이다.

앤트로픽은 새 헌법 전문을 크리에이티브 커먼즈 CC0 1.0 라이선스로 공개해, 누구나 자유롭게 열람·활용할 수 있도록 했다.

이를 통해 클로드의 행동 중 어떤 부분이 의도된 것인지, 어떤 부분이 한계나 오류인지를 외부에서도 구분할 수 있게 하고, 사회적 검증과 피드백을 촉진하겠다는 입장이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

클로드 '헌법' 업데이트..."사용자 요청보다 안전·윤리 우선할 것"

AI 이슈 트렌드

AI타임스 하이라이트

실시간 인기 뉴스

주요 뉴스

파워링크

당신만의 뉴스 Pick

독자의 Pick

포토 뉴스

쇼핑 핫아이템