연구진이 LLM 평가의 한계를 극복하기 위해 이분법 질문 기반 프레임워크 BINEVAL을 제안했어요. BINEVAL은 평가 기준을 세분화된 이분법 질문으로 분해하고, LLM이 답변한 결과를 종합하여 다차원 점수를 산출해요. BINEVAL은 SummEval, Topical-Chat, QAGS 등 다양한 벤치마크에서 기존 LLM 평가 모델보다 우수한 성능을 보였고, 프롬프트 개선에도 활용될 수 있어요.