EvoLM은 외부 감독 없이 언어 모델 스스로 평가 능력을 활용하여 성능을 향상시키는 새로운 방법입니다. 이 방법은 언어 모델 내에서 평가 기준을 생성하고, 이를 훈련 신호로 활용하여 모델을 발전시킵니다.
EvoLM은 Qwen3-8B 모델을 훈련하여 GPT-4.1보다 25.7% 더 뛰어난 평가 기준을 생성하도록 만들었으며, OLMo3-Adapt 벤치마크에서 기존 방식보다 높은 성능을 달성했습니다.
연구 결과는 언어 모델의 평가 능력을 구조화하고 공동으로 진화시키는 평가 기준을 활용하면 외부 감독 없이도 자체 개선이 가능하다는 것을 보여줍니다.