Pulse · AI 뉴스

EvoLM: 스스로 진화하는 언어 모델 - 차세대 평가 기준 활용

Qwen · 2026-05-06

EvoLM은 외부 감독 없이 언어 모델 스스로 평가 능력을 활용하여 성능을 향상시키는 새로운 방법입니다. 이 방법은 언어 모델 내에서 평가 기준을 생성하고, 이를 훈련 신호로 활용하여 모델을 발전시킵니다.

EvoLM은 Qwen3-8B 모델을 훈련하여 GPT-4.1보다 25.7% 더 뛰어난 평가 기준을 생성하도록 만들었으며, OLMo3-Adapt 벤치마크에서 기존 방식보다 높은 성능을 달성했습니다.

연구 결과는 언어 모델의 평가 능력을 구조화하고 공동으로 진화시키는 평가 기준을 활용하면 외부 감독 없이도 자체 개선이 가능하다는 것을 보여줍니다.

##모델출시##자기지도학습##평가기준

매일 핵심 AI 소식을 한국어로, 빠르게