연구진은 공개 AI 평가가 종종 최종 리더보드로 여겨지지만, 보고 규칙, 벤치마크 수정, 누락 등으로 인해 선택적인 시계열 데이터로 구성된다고 밝혔습니다. LiveBench와 Open LLM Leaderboard v2의 공개 기록, LMArena, GAIA, tau-bench를 분석했습니다.
베이지안 추론 문제를 통해 동일한 보고 규칙 하에서 1,000개 시스템에 대한 단일 최종 예시는 이전 두 기록과 호환되며, 동일한 최종-꼬리 모델에서 천장까지 도달하는 데 23.03초 또는 75.13초가 소요됩니다.
후방 비교에서 관찰 체제에 따라 행동 관련 진단이 달라지며, 후보 선택에 민감한 최전선 모델은 합성 복구, 객관 기록 예측, 선호도 이전, 불확실성 교정에 실패하여 고정 감사 게이트가 더 강력한 주장을 거부합니다.