Pulse · AI 뉴스

STT-Arena: 시공간적 동역학을 고려한 도구 사용 환경

STT-Arena · 2026-05-19

연구진이 LLM의 계획 수정 및 적응 능력을 평가하는 STT-Arena(Spatio-Temporal Tool-Use Arena) 벤치마크를 공개했어요. STT-Arena는 9가지 시공간적 충돌 유형과 4단계 난이도를 포함한 227개의 인터랙티브 과제를 포함하고 있어요.

Claude-4.6-Opus를 포함한 최신 LLM도 40% 미만의 정확도를 기록하며, 시공간적 동역학 추론의 어려움을 보여줬어요. 연구진은 모델의 실패 원인을 분석해 개선된 STT-Agent-4B 모델을 개발했어요.

STT-Agent-4B는 기존 LLM보다 STT-Arena에서 더 높은 성능을 보였으며, 훈련 데이터 개선 기법과 온라인 강화 학습을 통해 실패 패턴을 제거했어요.

##LLM##벤치마크##에이전트##STTArena##시공간적동역학
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기