연구진은 복잡한 추론 문제를 해결하기 위해 언어 모델에 점진적으로 난이도를 높이는 교육 과정 학습을 활용하지만, 다국어 환경에서 일관된 단계별 추론을 생성하는 데 어려움이 있다고 밝혔어요.
IRIS는 점진적으로 어려운 문제를 활용한 지도 학습과 단계별 지침 의존도를 줄이기 위한 역방향 교육 과정 강화 학습을 결합한 새로운 프레임워크로, 정확성, 단계별 정렬, 연속성, 수치적 인센티브를 결합한 보상 체계를 사용해요.
연구진은 영어, 힌디어, 마라티어로 29,000개의 문제를 포함하는 CL-Math 데이터셋을 공개했으며, IRIS는 다양한 벤치마크와 다국어 테스트 세트에서 성능을 향상시켰고, 특히 저자원 및 이중 언어 환경에서 큰 효과를 보였어요.