연구진은 LLM 평가 데이터셋 구축의 어려움을 해결하기 위해 STELLAR-E라는 완전 자동 시스템을 개발했어요.
STELLAR-E는 TGRT Self-Instruct 프레임워크를 수정하여 사용자의 최소한의 입력만으로 고품질의 합성 데이터셋을 생성하며, 기존 벤치마크 대비 평균 5.7% 높은 LLM-as-a-judge 점수를 보여요.
이 시스템은 LLM 애플리케이션 평가를 위한 확장 가능하고 도메인 적응 가능한 벤치마크 프레임워크를 제공하여 수동 방식보다 빠르고 효율적인 품질 보증을 가능하게 해요.