Pulse · AI 뉴스

자체 오류 수정 학습 모델, GPT-3.5 수학 능력 뛰어넘어

Qwen · 2026-05-15

연구자가 Qwen 2.5 7B 모델을 기반으로 자체 오류 수정 학습을 시도, 인간이 작성한 코드를 사용하지 않고 모델 스스로 코딩 문제를 만들고 해결하는 방식으로 진행했습니다.

이 과정에서 모델은 HumanEval 문제 해결 능력을 25개에서 112개로 향상시켰으며, Qwen 2.5 14B 모델은 Anthropic의 RLHF 모델에 근접하는 성능을 보였습니다.

다양한 모델 아키텍처와 벤더에 적용 가능했으며, 자체적으로 수학 문제를 만들고 학습하는 과정을 통해 3B 모델이 GPT-3.5의 수학 능력을 능가하는 결과를 보여줬습니다.

##모델출시##자가학습##코딩

매일 핵심 AI 소식을 한국어로, 빠르게