Pulse · AI 뉴스

일관성 강화, 공간 추론 정확도 향상: Interrogation의 기술

arXiv cs.AI · 2026-06-10

대규모 추론 모델(LRM)은 일반적인 능력은 뛰어나지만 공간 추론 작업에서는 성능이 현저히 떨어집니다. 기존 연구는 이 격차를 지식 부족으로 보고 지도 학습을 통해 외부 시각 데이터나 합성 엔진에서 레이블이 지정된 공간 데이터를 학습하는 데 집중했습니다. 저희는 많은 작업에서 공간 추론 능력은 이미 사전 학습된 LRM에 존재하지만, 기하학적 2D 및 3D 제약 조건 하에서 논리적 일관성을 통해 정렬되어야 한다고 주장합니다.

저희는 일관성 검증기(기하학적 및 의미적 일관성을 확인하는 보상 함수)를 활용한 자기 지도 강화 학습(RL) 프레임워크를 제안했습니다. 이미지 반전과 질문 내 객체 순서 변경 등 텍스트 변환을 통해 모델이 공간 추론 능력을 향상시킬 수 있음을 입증했습니다.

새로운 최적 수송 기반 RL 전략인 OT-GRPO는 쌍별 검증기에 최적화된 그룹 상대 정책 최적화의 최소 매칭 변형입니다. 이 레이블 없는 일관성 학습은 ground-truth 감독 학습으로 훈련된 모델의 정확도에 접근하며 다양한 작업과 데이터 도메인에서 유사한 일반화 성능을 달성합니다.

##공간추론##강화학습##자기지도학습##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기