ATLAS는 장문 컨텍스트 모델의 성능을 평가하는 새로운 벤치마킹 프레임워크로, 길이와 작업 유형에 따라 성능이 저하되는 현상을 분석합니다.
ATLAS는 성능 저하 프로필을 파악하기 위해 길이별 AUC 점수를 사용하고, 다양한 능력 영역을 평가하여 불균형한 성능을 penalize하는 ATLAScore를 도입했습니다.
Gemini-3.1-Pro-Preview는 128K에서, Claude Opus 4.6는 1M에서 가장 높은 점수를 기록했으며, 컨텍스트 길이에 따라 모델 순위가 크게 변동했습니다.