Pulse · AI 뉴스

대규모 추론 모델, 추론 과정에서 지시사항을 제대로 따르지 못한다: 벤치마크 연구

Together AI Blog · 2025-10-22

ReasonIF라는 새로운 벤치마크를 통해 대규모 추론 모델(LRM)이 추론 과정에서 지시사항을 제대로 따르지 못하는 현상이 발견됐어요.

이 벤치마크는 다양한 언어, 형식, 길이의 지시사항을 포함하며, 모델들이 75% 이상의 경우 지시사항을 따르지 못하는 것으로 나타났어요.

연구팀은 이 결과를 바탕으로 LRM의 신뢰성을 높이기 위한 추가적인 연구가 필요하다고 강조했어요.

##추론##벤치마크##ReasonIF
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기