(사진=셔터스톡) |
오픈AI가 최신 인공지능(AI) 모델의 안전 평가에 들이는 시간과 자원을 대폭 줄이는 등 충분한 검증 없이 기술을 서둘러 출시하고 있다는 비판이 제기됐다.
파이낸셜타임스는 11일(현지시간) 내외부 테스트 관계자들을 인용, 오픈AI가 내부 직원과 외부 테스트 그룹에 최신 대형언어모델(LLM)의 위험과 성능을 테스트하는 평가 과정을 과거 수개월에서 이제는 며칠로 단축하라는 지시를 내리고 있다고 보도했다.
이에 따르면, 오픈AI의 테스트는 점점 허술해지고 있으며, 위험을 식별하고 이를 완화하기 위하기에는 시간과 자원이 부족하다고 전해졌다. 이는 구글과 앤트로픽, xAI는 물론, 딥시크 등 중국 기업까지 경쟁에 뛰어든 탓이다.
실제로 오픈AI는 o3를 이르면 다음 주 출시할 계획이며, 일부 테스트 인원에게는 일주일도 안 되는 기간만 제공된 것으로 전해졌다. 반면, 2023년에 출시된 'GPT-4'는 무려 6개월간의 사전 평가 기간이 주어졌다.
GPT-4를 테스트했던 한 관계자는 "위험한 기능 중 일부는 테스트 두달이 지나서야 발견됐다"라며 "현재 오픈AI의 방식은 공공의 안전을 전혀 우선시하지 않고 있다"라고 비판했다.
테스트 과정에는 외부 전문가 고용과 특수 데이터셋 구축, 내부 엔지니어 투입, 컴퓨팅 자원 확보 등 막대한 비용이 수반된다. 그러나 최근에는 다수의 프로젝트를 동시에 진행하는 데다, '챗GPT'의 인기로 컴퓨팅 리소스까지 부족한 것으로 알려졌다.
이에 대해 오픈AI는 자동화 시스템 도입 등으로 인해 테스트 기간을 단축했으며, 이를 최선이라고 밝혔다.
요하네스 하이데케 오픈AI 안전 시스템 책임자는 "재앙적 위험에 대해선 철저한 테스트와 완화 조치를 진행했다"라며 "우리는 속도와 철저함 사이에서 좋은 균형을 유지하고 있다"라고 해명했다.
테스트 모델이 실제 출시 모델과 다를 수 있다는 점도 지적되고 있다. 오픈AI는 '체크포인트(checkpoints)'라 불리는 중간 단계의 모델에서 테스트를 진행한 뒤 성능을 개선해 최종 모델을 공개하는데, 이는 평가 당시의 성능과는 다를 수 있다는 지적이다.
한 전직 오픈AI 기술직원은 "테스트한 모델과 출시한 모델이 다른 것은 매우 나쁜 관행"이라고 비판했다. 오픈AI는 이에 대해 "체크포인트와 실제 출시 모델은 사실상 동일하다"라고 반박했다.
박찬 기자 cpark@aitimes.com
<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>