연구진은 LLM의 지시 따르기 능력을 향상시키는 자기 진화 강화 학습 프레임워크인 SEIF를 제안했습니다. SEIF는 지시 난이도와 모델 능력이 서로 강화되는 폐쇄적인 자기 진화 루프를 형성하며, Instructor, Filter, Follower, Judger 역할을 수행합니다. 다양한 모델 규모와 아키텍처에서 실험 결과, SEIF는 일관되게 지시 따르기 성능을 향상시켰으며, 코드와 데이터는 GitHub에서 공개되었습니다.