Pulse · AI 뉴스

SoCRATES: 다양한 상황에서 LLM 중재 능력 평가를 위한 새로운 벤치마크

SoCRATES · 2026-06-04

연구진은 LLM 중재 능력 평가의 어려움을 해결하기 위해 SoCRATES 벤치마크를 개발했어요. 이 벤치마크는 실제 갈등을 기반으로 8개 도메인의 시나리오를 생성하고, 5가지 사회인지적 적응 축을 탐색해요.

SoCRATES는 각 주제에 맞춰 평가하며, 인간 전문가와 82%의 일치도를 보여줘 기존 방식보다 성능이 훨씬 뛰어나요.

8개의 최첨단 LLM을 테스트한 결과, 현실적인 시나리오에서 합의 간극을 3분의 1 수준만 좁히는 것으로 나타났으며, 사회인지적 축에 따라 성능이 크게 달라지는 점을 확인했어요.

##LLM##중재##벤치마크##SoCRATES##평가

매일 핵심 AI 소식을 한국어로, 빠르게