[황치규 기자]
[디지털투데이 황치규 기자]마이크로소프트는 파이(Phi) 시리즈 시각 언어 모델(vision-language models)에 기반한 피지컬 AI 로보틱스 모델인 '로-알파(Rho-alpha)'를 공개했다.
마이크로소프트는 로-알파를 통해 물리 시스템이 보다 유연하게 적응할 수 있도록 하는 것을 목표로 하고 있다.
회사 측에 따르면 지난 수십 년간 로봇은 작업이 예측 가능하고 엄격히 정해진 조립 라인과 같은 구조화된 환경에서 성과를 보였다. 이런 가운데 이제 물리적 시스템을 대상으로 한 시각-언어-행동(Vision-Language-Action, VLA) 모델이 등장하면서 로봇이 복잡하고 정해지지 않은 덜 구조화된 환경에서도 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있도록 지원하는 것이 가능해졌다.
[디지털투데이 황치규 기자]마이크로소프트는 파이(Phi) 시리즈 시각 언어 모델(vision-language models)에 기반한 피지컬 AI 로보틱스 모델인 '로-알파(Rho-alpha)'를 공개했다.
마이크로소프트는 로-알파를 통해 물리 시스템이 보다 유연하게 적응할 수 있도록 하는 것을 목표로 하고 있다.
회사 측에 따르면 지난 수십 년간 로봇은 작업이 예측 가능하고 엄격히 정해진 조립 라인과 같은 구조화된 환경에서 성과를 보였다. 이런 가운데 이제 물리적 시스템을 대상으로 한 시각-언어-행동(Vision-Language-Action, VLA) 모델이 등장하면서 로봇이 복잡하고 정해지지 않은 덜 구조화된 환경에서도 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있도록 지원하는 것이 가능해졌다.
로-알파는 자연어 명령을 기반으로 로봇이 양손 조작(bimanual manipulation)을 수행할 수 있도록 제어 신호로 변환한다. 특히 기존 VLA에서 일반적으로 사용하는 인지 및 학습 모달리티 범위를 넘어 확장했다는 점에서 차별화돼 있다는게 회사 측 설명이다.
애슐리 로렌스 마이크로소프트 리서치 액셀러레이터 부사장은 "인지 측면에서는 촉각 센싱을 새롭게 접목했으며, 현재 힘(force) 등 추가적인 센싱 모달리티 확장을 위한 기술 고도화가 진행 중"이라며 "학습 영역에서는 실제 현장에 배치 중에도 사람 피드백을 학습해 성능을 지속적으로 개선할 수 있도록 설계했다"고 말했다.
마이크로소프트는 로-알파를 자사 로봇 시스템에 도입하거나 다양한 활용 사례를 발굴하는 파트너들을 위해 로-알파 리서치 얼리 액세스 프로그램(Rho-alpha Research Early Access Program)도 진행한다.
아비섹 굽타(Abhishek Gupta) 워싱턴대 교수는 "로봇 시스템을 원격 제어해 훈련 데이터를 생성하는 방식은 이제 업계 표준으로 자리 잡았지만, 원격 조작이 비실용적이거나 불가능한 환경도 여전히 많다. 마이크로소프트 리서치와 협력해 시뮬레이션과 강화 학습을 결합한 다양한 합성 시연(synthetic demonstrations) 데이터를 생성하고 있으며, 이를 통해 실제 로봇에서 수집된 사전 학습 데이터셋을 풍부하게 확충하고 있다"고 말했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>































































