RaguTeam이 SemEval-2026 Task 8에서 7개 LLM 앙상블 방식으로 1위를 차지하며, 기존 최강 베이스라인 모델(gpt-oss-120b)보다 높은 성능(0.7827)을 기록했어요.
GPT-4o-mini 기반의 판단 모델이 각 인스턴스별 최적 후보를 선택하는 방식으로, 모델 패밀리, 규모, 프롬프트 전략의 다양성이 중요하다고 분석됐어요.
연구진은 비용 효율적인 7B 모델 'Meno-Lite-0.1'을 공개하고, MTRAGEval 데이터셋의 한계점과 개선 방향을 제시했어요.