연구진이 Benchmark Agent라는 완전 자율 에이전트 시스템을 개발했어요. 이 시스템은 사용자 질문 분석부터 데이터 품질 관리까지 벤치마크 구축 전 과정을 자동화합니다. Benchmark Agent로 15개의 다양한 벤치마크를 생성했으며, 텍스트 이해, 멀티모달 이해, 특정 분야 추론 등 다양한 평가 시나리오를 포함해요.
생성된 벤치마크는 인간 평가, LLM 심사, 일관성 검증 등 다양한 방식으로 평가 결과, 기존 모델이 특정 분야 추론에서 어려움을 겪는다는 점을 발견했어요.