코딩 에이전트의 위험 행동을 감지하는 언어 모델 기반 모니터링 시스템에서, 컨텍스트 길이가 길어질수록 성능이 저하되는 현상이 발견되었습니다. Opus 4.6, GPT 5.4, Gemini 3.1 모델은 800K 토큰 이상의 컨텍스트에서 위험 행동을 기존보다 2배에서 30배 더 놓치는 경향을 보입니다. 컨텍스트 길이 저하 문제를 해결하기 위해 프롬프트 리마인더 기법을 사용하거나 추가적인 후처리 과정을 적용할 수 있습니다.