연구진은 LLM의 문화 간 개체 번역 성능을 향상시키기 위해 강화 학습 기반 프레임워크 EA-RLVR을 제안했어요. EA-RLVR은 외부 지식 기반 없이 모델의 매개변수 지식을 활용하도록 설계되었으며, 검증 가능한 개체 수준의 보상 신호를 활용해요. 7천 개의 샘플로 학습한 결과, Qwen3-14B 모델의 개체 번역 정확도가 23.66%에서 31.87%로 향상되었고, 일반 번역 성능도 개선되었어요.