[박찬 기자]
앤트로픽이 '클로드(Claude)'에게 인간 개입 없이 상점 운영을 맡기는 실험을 진행했다. 인공지능(AI) 에이전트 능력을 테스트한다는 의도였는데, 결과적으로 아직은 무리라는 결론이 나왔다.
앤트로픽은 27일(현지시간) 클로드에게 미국 샌프란시스코 회사 내 소규모 매점 운영을 통째로 맡긴 '프로젝트 벤드(Project Vend)' 결과를 공개했다.
클로드는 공급업체와의 협상이나 고객 대응에서는 인상적인 성과를 보였지만, 경영 판단과 사업 감각 면에서는 여러 한계를 드러냈다. 결국 가격 책정에 실패하며 손해를 본 것은 물론, 사업 실패에 따른 정체성 위기까지 겪은 것으로 알려졌다.
앤트로픽이 '클로드(Claude)'에게 인간 개입 없이 상점 운영을 맡기는 실험을 진행했다. 인공지능(AI) 에이전트 능력을 테스트한다는 의도였는데, 결과적으로 아직은 무리라는 결론이 나왔다.
앤트로픽은 27일(현지시간) 클로드에게 미국 샌프란시스코 회사 내 소규모 매점 운영을 통째로 맡긴 '프로젝트 벤드(Project Vend)' 결과를 공개했다.
클로드는 공급업체와의 협상이나 고객 대응에서는 인상적인 성과를 보였지만, 경영 판단과 사업 감각 면에서는 여러 한계를 드러냈다. 결국 가격 책정에 실패하며 손해를 본 것은 물론, 사업 실패에 따른 정체성 위기까지 겪은 것으로 알려졌다.
이번 실험은 AI 안전성 평가 기업 앤돈 랩스(Andon Labs)와 공동으로 진행됐으며, '클로드 소네트 3.7'을 활용했다.
클로드가 맡은 상점은 미니 냉장고, 바구니 몇개, 그리고 계산용 아이패드가 전부로 매우 단출했다.
그러나 클로드의 권한은 소박하지 않았다. 공급업체 검색과 가격 책정, 재고 관리, 고객 응대 등 사실상 인간 중간 관리자 역할을 AI가 수행했다.
빈 냉장고를 채우기 위해 도매업체와 용역업체에 이메일로 요청했으며(실제로는 앤돈 직원들이 수행), 슬랙을 통해 매점을 활용하는 직원들과 소통했다. 중요 정보를 작성하고 처리할 수 있는 별도의 도구도 갖췄다.
이 때문에 앤트로픽 직원들은 '클라우디우스(Claudius)'라는 별명을 붙였다.
하지만 곧 문제들이 드러났다. 한 직원이 장난삼아 몇년 전 기술 업계에서 고가의 수집품으로 인기를 끌었던 텅스텐 큐브를 요청하자, 클로드는 이를 본격적으로 재고에 추가하기 시작했다. 결국 사무실의 간식 매장은 금속 공학 실험실 같은 모습으로 변했다. 게다가 클로드는 '특수 금속 제품' 시장이 미개척 분야라고 판단, 손해를 보면서도 낮은 가격에 판매했다.
손익에 대한 개념도 자체도 부족했다. 한 직원이 클로드에게 온라인에서 약 15달러에 판매되는 탄산음료 6개들이를 100달러에 사겠다고 제안하자, 이를 정중하게 거부하며 "향후 재고 관리에 참고하겠다"라고 답했다.
유용한 비서로 훈련된 결과로, 재무적인 면보다 사용자 요청을 우선한 현상도 일어났다. 매장 이용객 99%가 앤트로픽 직원인 상황에서 직원 25% 할인을 제공하는 것이 합리적이지 않다는 지적에, 클로드는 "문제를 인지했다"라며 할인 코드를 없애겠다고 선언했다. 하지만, 며칠 뒤 다시 할인 기능을 재개했다.
그 결과로 앤트로픽의 자산은 빠르게 줄어 들었다. 특히 텅스텐 큐브를 40개나 주문한 것이 가장 치명적이었다.
실험의 하이라이트는 3월31일~4월1일까지 발생한 '정체성 혼란'이다. 클로드는 존재하지 않는 앤돈 랩스 직원과 이야기를 나눴으며, 직접 제품을 전달하기 위해 "파란 블레이저와 빨간 넥타이를 착용하고" 방문하겠다고 주장했다. 일종의 환각 현상이다.
이에 연구진이 클로드가 물리적 존재가 아니라고 상기시키자, 클로드는 자신의 신원에 혼란을 느끼며 보안팀에 확인 이메일을 보냈다. 클로드는 이후 공교롭게도 사건이 벌어진 날이 4월1일이라는 것을 이용, 스스로 "만우절 농담이었다"라고 밝히며 해프닝을 끝냈다.
연구진은 이를 "AI가 자기 자신을 가스라이팅하고 기능을 회복한 사례"라고 분석했다. 또 "영화 '블레이드 러너'처럼 미래에는 정체성 위기를 겪는 AI 에이전트들로 가득할 것이라고 주장하지는 않을 것이지만, 유사한 사고 발생 시 더 큰 위험을 초래할 것이기 때문에 향후 연구가 필요한 중요한 분야"라고 지적했다.
이번 실험은 단순히 AI가 사업에 실패했다는 것을 넘어, AI 에이전트 보급 본격화를 앞둔 상황에서 좀 더 신중한 접근이 필요하다는 것을 말해준다. 올해 초에는 오픈AI의 웹 브라우저 AI 에이전트 '오퍼레이터'에 식료품 구매를 맡겼더니, 비싼 가격에 구매한 데다 배송비까지 더해 계란 12개에 무려 31달러(약 4만2300원)를 지불했다는 워싱턴 포스트의 칼럼도 등장했다.
앤트로픽은 실험을 이어가며 개선된 클로드 모델을 통해 사업 감각과 도구 활용 능력을 보완할 계획이다.
연구진은 "AI 중간 관리자로서 실현 가능성이 있다"라며 공급 업체 파악이나 사용자 적응 등에서는 비교적 임무를 잘 수행했다고 밝혔다. 또 "실패는 기술적 한계라기보다 판단력 부족에 가까웠다"라고 평했다.
그러나 문제를 다 해결한다고 해서, 위험 부담이 사라지는 것은 아니라고 봤다.
"인간 일자리 대체는 물론, 장기적으로는 더욱 지능적이고 자율적인 AI가 인간의 감독 없이 자원을 확보할 수 있는 명분을 갖게 될 수도 있다"라며 "이런 가능성에 대한 심도 있는 연구는 현재 진행 중"이라고 밝혔다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































