Pulse · AI 뉴스

LLM의 장문 컨텍스트 추론, 위치 정보 오류에 취약: 벤치마크의 맹점

MiMo-v2-Flash · 2026-05-22

연구진은 LLM의 장문 컨텍스트 추론 벤치마크가 위치 정보 제어 없이 진행되어 문제점을 지적했어요.

GSM8K와 ARC-Challenge에서 Context Rot Evaluation(CRE)를 통해 위치 변화에 따른 성능 저하를 확인했는데, 중간 위치로 이동 시 성능이 급격히 떨어지는 모델이 많았어요.

MiMo-v2-Flash는 64K 컨텍스트에서 중간 위치 시 정확도가 8%까지 떨어졌지만, 최신 모델들은 위치에 따른 성능 변화가 적어졌어요.

연구 결과, 현재 벤치마크 설계 및 모델 평가 방식의 구조적 오류가 드러났으며, 위치 정보 제어를 통해 장문 컨텍스트에서의 LLM 성능을 정확하게 평가해야 한다고 강조했어요.

##LLM##벤치마크##장문컨텍스트##위치정보
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기