연구진은 LLM의 정신 이론 능력을 평가하는 새로운 벤치마크 DialToM을 발표했어요. DialToM은 실제 인간 대화 데이터를 기반으로 하며, 정신 상태 예측과 미래 대화 경로 예측 능력을 평가해요. Gemini 3 Pro를 제외한 대부분의 LLM은 정신 상태를 파악하는 데는 능숙하지만, 이를 활용하여 대화 경로를 예측하는 데는 어려움을 겪는 것으로 나타났어요.