연구진이 LLM의 계획 수정 및 적응 능력을 평가하는 STT-Arena(Spatio-Temporal Tool-Use Arena) 벤치마크를 공개했어요. STT-Arena는 9가지 시공간적 충돌 유형과 4단계 난이도를 포함한 227개의 인터랙티브 과제를 포함하고 있어요.
Claude-4.6-Opus를 포함한 최신 LLM도 40% 미만의 정확도를 기록하며, 시공간적 동역학 추론의 어려움을 보여줬어요. 연구진은 모델의 실패 원인을 분석해 개선된 STT-Agent-4B 모델을 개발했어요.
STT-Agent-4B는 기존 LLM보다 STT-Arena에서 더 높은 성능을 보였으며, 훈련 데이터 개선 기법과 온라인 강화 학습을 통해 실패 패턴을 제거했어요.