컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
머니투데이 언론사 이미지

비전과 언어를 함께 이해하는 'VLM OCR' 기술 부상...한국딥러닝 선두, 업스테이지 추격 예고

머니투데이 김재련기자
원문보기
사진제공=한국딥러닝

사진제공=한국딥러닝



문서 AI 시장이 빠르게 진화하고 있다. 기존 OCR(광학 문자 인식) 기술이 단순히 이미지 속 텍스트를 추출하는 데 그쳤다면, 최근 주목받는 'VLM OCR(Vision Language Model OCR)'은 문서의 시각적 구조와 언어적 맥락을 동시에 이해하는 차세대 기술로 자리매김하고 있다.

국내에서는 한국딥러닝이 VLM OCR 상용화를 선도하고 있으며, 업스테이지도 출시를 예고하며 본격적인 시장 공략에 나섰다. 디지털 전환이 가속화되는 가운데, 문서 처리 패러다임을 바꾸는 핵심 기술로 주목받으며 시장 주도권을 둘러싼 경쟁이 치열해지고 있다.

기존 OCR의 한계를 넘어… VLM 기반 문서 AI 부상

기존 OCR 기술은 이미지 속 텍스트를 디지털화하는 데 초점을 맞춰왔다. 그러나 복잡한 레이아웃, 표, 비정형 문서에서는 문맥을 제대로 인식하지 못해 자동화와 정보 추출에 한계가 있었다.

반면 VLM OCR은 Vision Language Model(VLM)과 대규모 언어모델(LLM)을 결합해 문서의 시각적 요소와 언어적 맥락을 통합적으로 처리한다. 계약서, 재무제표, 의료 기록 등 고난도 문서에서도 핵심 정보를 자동으로 추출하고 구조화할 수 있다.?멀티모달 학습 기반으로 문서 레이아웃 해석, 표·문단 구조 이해, 문맥 기반 정보 추출 등 고도화된 기능을 제공하는 것이 특징이다.

한국딥러닝, VLM OCR 상용화 선도… 한국어·비정형 문서 강점

한국딥러닝은 올해 1월, 자체 개발한 VLM 'DEEP IMAGE'를 기반으로 한 'DEEP OCR+'를 정식 출시하며 국내 VLM OCR 상용화를 선도하고 있다.?DEEP IMAGE는 4억 건 이상의 이미지·텍스트 데이터를 학습한 모델로, 한국어 및 다국어 처리 성능, 비정형 문서 해석에서 두드러진 성과를 보이고 있다.

별도 커스터마이징 없이 다양한 형식의 문서에서 표, 조항, 날짜, 금액 등 구조화된 정보를 자동 추출할 수 있으며, 공공기관과 대기업 중심으로 초기 시장 레퍼런스를 빠르게 확보해 나가고 있다.


'의미 기반 추론'으로 실전 적용 가속화

한국딥러닝은 의미 기반 추론 능력을 VLM OCR의 핵심 경쟁력으로 강조한다. 수기 문서나 복잡한 레이아웃 등 기존 OCR이 취약했던 영역에서도, VLM은 문맥과 사용자의 의도를 인식해 보다 정확하고 안정적인 결과를 제공한다.

현재 국내 공공기관, 물류, 금융 등 다양한 분야의 프로젝트에서 기존 기술 대비 우수한 성능이 입증되고 있으며, 다국어 혼합 문서 인식과 복잡한 레이아웃 분석 등에서 뛰어난 효율을 보이고 있다.?회사 관계자는 "특히 별도 학습 없이도 다양한 양식의 문서를 실시간 처리할 수 있는 점이 기업 고객들로부터 높은 평가를 받고 있다"고 전했다.

업스테이지, LLM 결합한 DocVLM 출시 임박… 글로벌 전략 가속

업스테이지는 6월 중 VLM 기반 문서 AI 솔루션 '솔라 DocVLM'을 출시할 예정이다. 자체 OCR 솔루션 'Document Parse'와 LLM '솔라(SOLAR)'를 결합해 문서 기반 질의응답, 요약, 분류 등 고도화된 기능을 제공한다.


보험, 금융, 의료 분야에서 복잡한 문서 처리 역량을 확보하고 있으며, 글로벌 벤치마크 테스트에서도 경쟁력을 인정받고 있다. 출시 이후에는 글로벌 시장 진출을 위한 본격적인 마케팅 활동도 전개할 계획이다.

VLM OCR, 디지털 전환 핵심 인프라로 부상

VLM OCR은 기업 디지털 전환과 AI 기반 업무 자동화의 핵심 인프라로 부상하고 있다. 계약서, 법률 문서, 의료 기록 등 고부가가치 문서의 자동화가 가능해지면서 ERP, RPA 등 기업 시스템과의 연계 활용성도 확대되고 있다.

현재 국내 시장에서는 한국딥러닝이 선제 상용화 및 한국어·비정형 문서 특화 역량으로 앞서가고 있으며, 업스테이지는 LLM 기반 확장성과 글로벌 전략을 바탕으로 후발 추격에 나서고 있는 구도다.


업계 관계자는 "VLM OCR은 AI 문서 처리 시장의 차세대 표준이 될 가능성이 높으며, 향후 기업들의 도입 경쟁도 더욱 치열해질 것"이라고 전망했다.

한편, 한국딥러닝은 IBK기업은행의 창업 육성 플랫폼 'IBK창공(創工) 광주 2기' 육성 기업으로, 전남대학교기술지주회사가 운영사로 함께하고 있다.

김재련 기자 chic@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1김장훈 미르 사과
    김장훈 미르 사과
  2. 2서서아 포켓볼 세계선수권
    서서아 포켓볼 세계선수권
  3. 3용인FC 김민우 영입
    용인FC 김민우 영입
  4. 4배드민턴 세계 1위
    배드민턴 세계 1위
  5. 5통일교 특검법 협의
    통일교 특검법 협의

머니투데이 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD