연구진은 기술 논문에서 숨겨진 텍스트를 예측하는 자동 생성 벤치마크를 소개했습니다. 모델은 주어진 맥락을 바탕으로 보조 예측 문자열을 생성하고, 별도의 점수는 이 예측 문자열을 통해 숨겨진 연속성의 다음 토큰 확률을 평가합니다. 이 벤치마크는 방정식-접미사 예측을 주요 테스트 대상으로 하며, 표면 수준의 텍스트 모델링과 추론 능력을 결합합니다.
GPT-5.5, Opus 4.7, GPT-5.4 nano 모델은 Qwen3-8B 및 Kimi K2.6 점수를 사용하여 맥락 제어보다 잘립니다. 이 결과는 인간 레이블 없이 모델 패밀리와 추론 노력을 구별합니다.
연구진은 모델이 유용한 예측을 하는 대신 점수를 더 잘 작동하도록 하는 단축키를 에뮬레이션하기 위해 점수를 미세 조정하고, GPT-5.5 예측은 이 미세 조정된 제어를 능가하는 반면 GPT-5.4 nano 예측은 그렇지 않습니다.