Pulse · AI 뉴스

다중 LLM 라우팅의 해결 불가능한 천장: 평가 오류의 실증적 연구

arXiv cs.CL · 2026-05-08

연구진은 6개의 벤치마크에서 20만 건 이상의 LLM 라우팅 실험을 통해 평가 오류가 '해결 불가능한 천장'의 상당 부분을 차지한다는 사실을 밝혀냈습니다.

LLM 평가 시 과도한 장황함 선호, 고정된 생성 예산으로 인한 잘림, 출력 형식 불일치 등이 주요 원인으로 지목되었습니다.

연구진은 이중 평가자 검증과 정확한 일치 기반 검증을 통해 실패 원인을 분해하고, 라우터 훈련 신호 왜곡 문제를 확인하며, 개선 방안을 제시했습니다.

##LLM##라우팅##평가##오류##연구

매일 핵심 AI 소식을 한국어로, 빠르게