Pulse · AI 뉴스

카메라 변화에 강건한 3D Localization 연구: MLLM을 위한 방정식 기반 도구 활용

Multimodal Large Language Models · 2026-05-19

연구진은 멀티모달 대규모 언어 모델(MLLM)의 3D localization 문제에서 카메라 내재적 불확실성으로 인한 한계를 해결하기 위해 방정식 기반 도구 활용 프레임워크를 제안했어요.

새로운 프레임워크는 카메라 내재치를 능동적으로 회수하고, 다점 거리 정보를 샘플링하며, 핀홀 역투영 방정식을 Chain-of-Thought 방식으로 명시적으로 작성하고, 도구 출력을 방정식에 대입하여 최종 9-DoF 바운딩 박스를 예측해요.

연구 결과, 카메라 내재치가 0.5배에서 1.5배로 재조정된 환경에서 3D 객체 검출 및 시각적 3D 정렬 작업 모두에서 RGB만 사용하거나 도구를 활용하는 기존 방식보다 성능이 향상되었어요.

##3DLocalization##MLLM##CameraRobustness##ToolUse
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기