CausaLab은 LLM 에이전트의 인과 추론 능력을 평가하는 환경입니다. 기존 평가와 달리, 문제 해결 능력과 함께 인과 메커니즘의 정확성을 평가합니다. 실험 결과, GPT-5.2-high는 높은 예측 정확도를 보이지만, 인과 그래프 복구에는 어려움을 겪습니다. 순수 관찰만으로는 구조적 정확도가 낮지만, 관찰과 개입을 결합하면 개선됩니다. 하지만 순수 개입만으로는 강력한 에이전트도 어려움을 겪습니다. 조기 중단이 주요 약점으로 확인됐습니다.