연구진이 LLM 심판(LaaJ)의 루브릭 검증 신뢰성을 메타 평가하는 RuVerBench 벤치마크를 공개했어요. 딥 리서치와 에이전트 코딩 두 분야의 2,458개 인스턴스로 구성돼 있어요.
Claude Opus 4.7와 같은 최신 모델도 높은 성능을 보이지만 여전히 상당한 노이즈가 관찰돼요. 프롬프트 설계, 배치 처리, 다수결 투표 등 LaaJ 전략이 신뢰성에 미치는 영향도 분석했어요.
RuVerBench 데이터셋과 코드를 공개해 향후 연구를 지원하며, 약한 모델은 프롬프트 변동에 민감하고, 다수결 투표는 효과가 감소하는 경향을 확인했어요.