Pulse · AI 뉴스

문화 간 개체 번역을 위한 강화 학습: 검증 가능한 보상을 활용하여 매개변수 지식 활용

Qwen · 2026-04-18

연구진은 LLM의 문화 간 개체 번역 성능을 향상시키기 위해 강화 학습 기반 프레임워크 EA-RLVR을 제안했어요.

EA-RLVR은 외부 지식 기반 없이 모델의 매개변수 지식을 활용하도록 설계되었으며, 검증 가능한 개체 수준의 보상 신호를 활용해요.

7천 개의 샘플로 학습한 결과, Qwen3-14B 모델의 개체 번역 정확도가 23.66%에서 31.87%로 향상되었고, 일반 번역 성능도 개선되었어요.

##강화학습##번역##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게