ReasonIF라는 새로운 벤치마크를 통해 대규모 추론 모델(LRM)이 추론 과정에서 지시사항을 제대로 따르지 못하는 현상이 발견됐어요. 이 벤치마크는 다양한 언어, 형식, 길이의 지시사항을 포함하며, 모델들이 75% 이상의 경우 지시사항을 따르지 못하는 것으로 나타났어요. 연구팀은 이 결과를 바탕으로 LRM의 신뢰성을 높이기 위한 추가적인 연구가 필요하다고 강조했어요.