Pulse · AI 뉴스

AFFORDANCE20Q: 물리적 속성 기반 추론 평가

Affordance20Q · 2026-06-12

연구진은 LLM의 물리적 속성 기반 추론 능력을 평가하기 위해 새로운 벤치마크 Affordance20Q를 공개했어요. 이 벤치마크는 객체 식별을 숨겨 LLM이 단순히 기억에 의존하는 것이 아닌 실제 추론을 수행하도록 설계됐어요. 15개 최신 LLM을 실험한 결과, 인간 수준의 성능에 비해 20% 이상의 격차가 발견됐어요.

Affordance20Q는 454개의 객체와 59개의 기능을 포함하며, 각 게임은 LLM이 물리적 속성에 대한 질문을 통해 숨겨진 객체의 기능을 추론하는 20-Questions 게임 형식으로 진행돼요. 연구 결과, LLM은 게임 진행 과정에서 중요한 질문을 하지 못하는 경향을 보였어요.

KB-Anchored Rule Induction (KARI) 파이프라인을 개발하여 지식 기반(KB)에 근거한 추론 규칙을 생성하고 LLM 성능을 개선했는데, 오픈소스 LLM의 성능을 최대 15.2% 향상시켰어요. 연구진은 Affordance20Q 코드와 데이터를 GitHub에 공개했어요.

향후 연구에서는 지식 기반의 제한적인 커버리지를 극복하여 LLM의 물리적 속성 기반 추론 능력을 더욱 향상시킬 수 있을 것으로 기대돼요.

##LLM##벤치마크##추론##인공지능##Affordance20Q
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기