연구진은 LLM 중재 능력 평가의 어려움을 해결하기 위해 SoCRATES 벤치마크를 개발했어요. 이 벤치마크는 실제 갈등을 기반으로 8개 도메인의 시나리오를 생성하고, 5가지 사회인지적 적응 축을 탐색해요.
SoCRATES는 각 주제에 맞춰 평가하며, 인간 전문가와 82%의 일치도를 보여줘 기존 방식보다 성능이 훨씬 뛰어나요.
8개의 최첨단 LLM을 테스트한 결과, 현실적인 시나리오에서 합의 간극을 3분의 1 수준만 좁히는 것으로 나타났으며, 사회인지적 축에 따라 성능이 크게 달라지는 점을 확인했어요.