Pulse · AI 뉴스

ARES: LLM 강화 학습을 위한 자동 루브릭 합성

ARES · 2026-05-22

연구진은 루브릭 기반 보상을 활용한 LLM 강화 학습의 확장성을 높이는 ARES 프레임워크를 제안했어요. ARES는 원문에서 질문-답변 쌍과 질문별 가중치 루브릭을 자동으로 생성하여 개별 질문에 맞는 평가 요구사항을 반영합니다.

ARES는 도메인 레이블과 페르소나 정보를 활용하여 다양하고 품질 높은 데이터를 생성하고, 질문의 자급성, 답변의 신실성, 루브릭의 유효성을 검증하는 필터를 적용했어요.

ARES로 생성된 10만 개의 루브릭 주석 데이터로 학습한 강화 학습 모델은 기존 방식보다 뛰어난 성능을 보였으며, 특히 의료 및 지시 따르기와 같은 다차원 개방형 작업에서 큰 효과를 거두었습니다.

##LLM##강화학습##루브릭##ARES
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기