[박찬 기자]
미스트랄 AI가 기업의 방대한 문서를 데이터로 전환하기 위한 새로운 광학문자인식(OCR) 모델을 선보였다. 뛰어난 정확도와 파격적인 가격 정책을 결합, 기업용 AI 시장을 겨냥했다.
미스트랄은 17일(현지시간) 차세대 OCR 모델 '미스트랄 OCR 3'를 공개했다.
OCR 3는 필기체와 인쇄물이 혼합된 문서, 인쇄 양식 위에 덧쓴 손글씨, 압축·왜곡·저해상도 등 실제 스캔 문서에서 흔히 발생하는 노이즈에 대한 처리 성능을 크게 개선했다. 특히 복잡한 표 구조를 헤더, 병합 셀, 다중 행 블록까지 복원해 HTML 형태로 출력함으로써, 이후 분석·검색·에이전트 워크플로에 바로 활용할 수 있도록 설계됐다.
미스트랄 AI가 기업의 방대한 문서를 데이터로 전환하기 위한 새로운 광학문자인식(OCR) 모델을 선보였다. 뛰어난 정확도와 파격적인 가격 정책을 결합, 기업용 AI 시장을 겨냥했다.
미스트랄은 17일(현지시간) 차세대 OCR 모델 '미스트랄 OCR 3'를 공개했다.
OCR 3는 필기체와 인쇄물이 혼합된 문서, 인쇄 양식 위에 덧쓴 손글씨, 압축·왜곡·저해상도 등 실제 스캔 문서에서 흔히 발생하는 노이즈에 대한 처리 성능을 크게 개선했다. 특히 복잡한 표 구조를 헤더, 병합 셀, 다중 행 블록까지 복원해 HTML 형태로 출력함으로써, 이후 분석·검색·에이전트 워크플로에 바로 활용할 수 있도록 설계됐다.
단순한 텍스트 추출을 넘어, 동일한 API 엔드포인트에서 두가지 핵심 기능과 통합 제공된다. 하나는 '구조화 주석'으로, 개발자가 사전에 정의한 스키마에 따라 문서의 특정 영역에 라벨을 부착하고 정형 데이터로 추출할 수 있다. 다른 하나는 '바운딩 박스 추출(BBox Extraction)' 기능으로, 텍스트나 이미지, 표 요소의 위치 좌표를 함께 반환해 후속 시스템에서 정확한 매핑과 시각화가 가능하도록 한다.
이러한 기능 조합은 OCR 결과를 단순히 읽는 데서 그치지 않고, ERP·CRM·검색 시스템·에이전트 워크플로·UI 오버레이 등 하위 시스템으로 직접 연결할 수 있도록 설계됐다. 예를 들어 청구서, 계약서, 기술 문서에서 추출한 필드를 자동으로 데이터베이스에 적재하거나, 화면상에서 원문 위치를 강조 표시하는 데 활용할 수 있다.
이번 모델은 미스트랄의 기업용 플랫폼 '미스트랄 AI 스튜디오(Mistral AI Studio)' 내 문서 AI(Document AI) 스택의 핵심 구성 요소로 제공된다. 사용자는 별도의 코드 작성 없이 PDF나 이미지를 업로드해 정제된 텍스트나 구조화된 JSON 데이터를 얻을 수 있으며, 동일한 파이프라인을 API를 통해 곧바로 운영 환경에 적용할 수 있다.
핵심 경쟁력은 정확도다. 양식, 스캔 문서, 복잡한 표, 필기 문서 등 기업 환경에서 가장 까다로운 문서 유형을 대상으로 이전 세대 OCR 2 대비 74%의 승률을 기록했다.
또 AWS의 '텍스트랙트(Textract)', 마이크로소프트의 '애저 OCR(Azure OCR)', 구글의 '독AI(DocAI)', '딥시크 OCR' 등 경쟁 제품과의 다양한 벤치마크에서 압도적인 1위를 기록했다.
가격도 기존 기업용 문서 인식·추출 솔루션 대비 크게 낮은 수준이다. 1000페이지당 2달러로 책정됐으며, 구조화 주석(Structured Annotations)을 활용해 문서 내 정보를 필드 단위로 추출할 때 1000페이지당 3달러가 적용된다.
특히 대량 문서 처리를 겨냥한 배치 추론(Batch Inference) API를 활용하면 50% 할인을 적용해, 실질적인 OCR 비용이 1000페이지당 1달러까지 낮아진다. 이는 대규모 문서 아카이브를 보유한 금융, 보험, 공공기관, 제조 기업에 매력적인 조건으로 평가된다.
이와 관련, 팀 로우 IDC AI 책임자는 "OCR은 생성 AI와 에이전트형 AI를 구현하는 데 있어 여전히 핵심적인 기술"이라며 "효율적이고 비용 효율적으로 고품질의 텍스트와 내장 이미지를 추출할 수 있는 기업은 데이터에서 가치를 창출하고 더 풍부한 맥락을 제공함으로써 경쟁 우위를 확보할 수 있을 것"이라고 말했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
































































