[박찬 기자]
사진 속 단서를 바탕으로 촬영 장소를 추적하는 과정에서 지도를 추론의 일부로 활용하는 새로운 이미지 지오로컬라이제이션(geolocalization) 기법이 제안됐다.
알리바바는 12일(현지시간) 사진 촬영 장소를 추론하는 과정에 지도를 활용해 단계적으로 사고하도록 설계한 비전-언어 모델(VLM) 기반 프레임워크 '싱킹 위드 맵(Thinking with Map)'을 온라인 아카이브에 공개했다.
이미지 지오로컬라이제이션은 시각적 단서를 바탕으로 전 세계 어디에서 사진이 찍혔는지를 맞히는 과제다.
싱킹 위드 맵 프레임워크 개요 (사진=아카이브) |
사진 속 단서를 바탕으로 촬영 장소를 추적하는 과정에서 지도를 추론의 일부로 활용하는 새로운 이미지 지오로컬라이제이션(geolocalization) 기법이 제안됐다.
알리바바는 12일(현지시간) 사진 촬영 장소를 추론하는 과정에 지도를 활용해 단계적으로 사고하도록 설계한 비전-언어 모델(VLM) 기반 프레임워크 '싱킹 위드 맵(Thinking with Map)'을 온라인 아카이브에 공개했다.
이미지 지오로컬라이제이션은 시각적 단서를 바탕으로 전 세계 어디에서 사진이 찍혔는지를 맞히는 과제다.
지금까지의 최첨단 모델들은 방대한 세계 지식과 사고 사슬(CoT) 추론, 에이전트 기능 등을 활용했지만, 인간이 자연스럽게 사용하는 '지도'라는 도구를 거의 활용하지 않았다는 한계가 있었다. 실제로 '제미나이 3 프로'와 같은 최신 모델도 실세계 이미지 기준 500m 이내 위치를 맞히는 정확도는 약 8%에 그쳤다.
알리바바 연구진은 문제의 원인이 지식 부족이 아니라, 문제를 푸는 방식에 있다고 봤다. 인간은 사진을 보고 곧바로 하나의 위치를 찍기보다, "이 풍경은 지중해 느낌이니 남유럽일 가능성이 높다"라는 식으로 가설을 세운 뒤 지도를 보며 후보를 좁히고 검증한다. 지도는 단순한 참고 자료가 아니라, 사고 과정의 일부라는 것이다.
이에 알리바바는 지오로컬라이제이션을 '한번에 위치를 예측하는 문제'에서 '지도 피드백을 통해 가설을 반복적으로 수정하는 문제'로 재정의했다.
모델은 이미지로 초기 위치 가설을 세운 뒤 지도 API를 호출해 해당 지역의 랜드마크, 지형, 거리 정보 등을 확인하고, 이를 바탕으로 다음 가설을 생성한다. 이런 과정을 반복하는 '에이전트-인-더-맵(agent-in-the-map) 루프'가 핵심 구조다.
학습 전략도 이에 맞춰 설계됐다. 먼저 에이전트형 강화 학습(RL)을 통해 모델이 지도 공간에서 어떤 가설을 세우고 어떻게 탐색해야 효율적인지 정책을 학습한다. 정답에 가까운 위치로 이동할수록 더 높은 보상을 주는 방식이다.
이후 병렬 테스트 타임 스케일링(TTS)을 적용해, 한번에 여러 위치 후보를 동시에 탐색하도록 했다. 이는 초기 추론이 잘못됐을 때 한 경로에 갇히는 문제를 줄여준다.
또 하나의 특징은 최종 결과를 고르는 '검증기(verifier)' 모델이다. 병렬로 탐색된 여러 후보 중, 지도 증거와 가장 잘 부합하는 위치를 학습적으로 선택한다.
이처럼 RL은 효율적인 탐색법을 가르치고, 병렬 샘플링은 다양한 가능성을 넓히며, 검증기는 신뢰도 높은 결정을 내리는 역할을 맡는다.
벤치마크 결과 (사진=arXiv) |
MAPBench 벤치마크 결과 (사진=arXiv) |
평가를 위해 알리바바는 최신 실세계 사진만으로 구성된 새로운 벤치마크 'MAP벤치(MAPBench)'도 공개했다.
유명 관광지 위주의 기존 데이터셋과 달리, MAP벤치는 일반 거리 풍경 등 '인더와일드(in-the-wild)' 이미지로 구성돼, 실제 환경에서의 공간 추론 능력을 검증하도록 설계됐다. 평가지표도 500m, 1km, 5km 등 다양한 거리 기준 정확도(Accuracy)를 사용한다.
실험 결과, MAP벤치 500m 기준에서 싱킹 위드 맵은 22.1%의 정확도를 기록해, 제미나이 3 프로의 8.0%에 비해 2.75배 향상된 성능을 보였다. 다른 모델과 비교해도 대부분 지표에서 우위를 보였으며, 다른 벤치마크에서도 일반화 성능이 확인됐다.
연구진은 이번 성과가 더 큰 모델이나 데이터 덕분이 아니라, 문제 구조 자체를 인간의 사고방식에 맞게 재설계한 결과라고 강조했다.
지도라는 인간의 핵심 도구를 AI의 추론 과정에 통합함으로써, 지오로컬라이제이션이라는 난제 해결에서 실질적인 진전을 이뤘다는 설명이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>























































