연구진이 장기적인 반복 개선 과정을 평가하는 새로운 벤치마크 AutoLab을 공개했어요. AutoLab은 시스템 최적화, 퍼즐, 모델 개발, CUDA 커널 최적화 등 4개 분야 36개 과제를 포함하며, 제한된 시간 내에 기준 성능을 개선하는 것을 목표로 해요. Claude Opus 4.6는 뛰어난 장기 최적화 능력을 보였지만, 대부분의 최첨단 모델은 예산 부족으로 실패하거나 조기에 종료되는 한계가 있었어요.