[AI리포터]
[디지털투데이 AI리포터] 글로벌 빅테크 기업의 인공지능(AI) 코딩 모델들이 실제 소프트웨어 개발 환경에서 어느 정도의 실력 차이를 보이는지를 비교한 실험 결과가 공개됐다.
19일(현지시간) IT매체 아스테크니카는 주요 4종 AI를 대상으로 고전 게임 '지뢰찾기'를 재구성하는 테스트를 진행했다. 테스트에 사용된 AI 모델은 오픈AI 코덱스(Codex), 앤트로픽 클로드 코드(Claude Code), 구글 제미나이 CLI(Gemini CLI), 미스트랄 바이브(Mistral Vibe)였다.
이번 테스트에서 9점을 받아 가장 높은 점수를 기록한 모델은 오픈AI의 코덱스였다. 코덱스는 숙련된 플레이어들이 사용하는 초딩(Chording) 기능을 완벽하게 구현한 유일한 모델이었다. 모바일 환경을 고려한 롱프레스 조작과 물음표 표시 기능 등 세세한 부분까지 챙겼으며, 위기 상황에서 안전한 타일을 제공하는 '럭키 스윕 보너스'(Lucky Sweep Bonus)를 추가해 게임성까지 확보했다는 평가를 받았다. 코딩 속도는 다소 느렸지만 결과물의 완성도는 압도적이었다.
[디지털투데이 AI리포터] 글로벌 빅테크 기업의 인공지능(AI) 코딩 모델들이 실제 소프트웨어 개발 환경에서 어느 정도의 실력 차이를 보이는지를 비교한 실험 결과가 공개됐다.
19일(현지시간) IT매체 아스테크니카는 주요 4종 AI를 대상으로 고전 게임 '지뢰찾기'를 재구성하는 테스트를 진행했다. 테스트에 사용된 AI 모델은 오픈AI 코덱스(Codex), 앤트로픽 클로드 코드(Claude Code), 구글 제미나이 CLI(Gemini CLI), 미스트랄 바이브(Mistral Vibe)였다.
이번 테스트에서 9점을 받아 가장 높은 점수를 기록한 모델은 오픈AI의 코덱스였다. 코덱스는 숙련된 플레이어들이 사용하는 초딩(Chording) 기능을 완벽하게 구현한 유일한 모델이었다. 모바일 환경을 고려한 롱프레스 조작과 물음표 표시 기능 등 세세한 부분까지 챙겼으며, 위기 상황에서 안전한 타일을 제공하는 '럭키 스윕 보너스'(Lucky Sweep Bonus)를 추가해 게임성까지 확보했다는 평가를 받았다. 코딩 속도는 다소 느렸지만 결과물의 완성도는 압도적이었다.
앤트로픽의 클로드 코드는 7점을 기록하며 코덱스의 뒤를 이었다. 이 모델은 단 5분 만에 작동하는 게임을 제작해 테스트 대상 중 가장 압도적인 코딩 속도를 보여줬으며, 이모지를 활용한 사용자 인터페이스(UI) 등 시각적인 완성도 역시 가장 뛰어났다. 특히 '파워 모드'(Power Mode)라는 독창적인 기능을 통해 보호막, 폭발, 엑스레이 등 게임의 공식에 변주를 준 점이 신선하다는 평가를 받았다. 다만, 지뢰찾기의 핵심 기술인 초딩 기능을 구현하지 못한 점이 결정적인 감점 요인으로 작용하며 아쉬움을 남겼다.
오픈 웨이트 모델인 미스트랄 바이브는 4점을 기록했다. 거대 자본의 지원 없이도 독자적인 실력을 보여준 점은 긍정적이었으나, 전반적인 기본기에서 한계를 드러냈다. 프롬프트에 명시된 사운드 효과를 전혀 구현하지 못했을 뿐만 아니라, 초딩 기술 부재와 작동하지 않는 커스텀 난이도 버튼 등 기능적 결함이 많았다. 또한 모바일 조작 시 시스템 핸들이 간섭하는 등 인터페이스 최적화도 미흡했다. 생성 속도 또한 유료 모델에 비해 현저히 느려 실제 개발 환경에서의 활용도는 낮게 평가됐다.
가장 실망스러운 결과를 보인 모델은 0점을 기록한 구글의 제미나이 CLI였다. 제미나이는 지뢰찾기의 기본 판조차 제대로 생성하지 못해 게임 자체가 실행되지 않는 완전 실패 상태의 결과물을 내놓았다. 사운드 구현을 위해 불필요하게 복잡한 라이브러리에 집착하다 오류에 빠졌으며, 코딩 속도 또한 한 번의 시도에 한 시간이 소요될 만큼 비효율적이었다. 기본적인 HTML5 환경조차 제대로 구축하지 못한 채 회색 상자만 출력하며 테스트 모델 중 유일하게 0점을 받았다.
이번 실험은 AI 에이전트가 단 한 번의 프롬프트만으로도 충분히 복잡한 프로그램을 작성할 수 있을 만큼 진화했음을 보여줬다. 하지만 동시에 전문가의 시각에서 여전히 중요한 기능을 놓치거나 불필요한 오류를 범하기도 했다. 이에 대해 아스테크니카는 "이번 결과는 AI 코딩 에이전트가 인간 개발자를 완전히 대체하기보다는, 인간의 창의성과 판단력을 극대화해 주는 인터랙티브한 도구로서 현재 가장 빛을 발하고 있음을 시사한다"고 분석했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>




























































