Pulse · AI 뉴스

AutoLab: 초장기 호리존 자동 연구·엔지니어링 작업 해결 가능할까

Claude · 2026-06-03

연구진이 초장기 호리존의 반복적인 개선 과정을 평가하는 새로운 벤치마크 AutoLab을 공개했어요.

AutoLab은 시스템 최적화, 퍼즐, 모델 개발, CUDA 커널 최적화 등 4개 분야 36개의 전문가가 선별한 과제를 포함하고 있어요.

Claude Opus 4.6는 뛰어난 장기 최적화 능력을 보였지만, 대부분의 최첨단 모델은 예산 부족으로 실패하거나 조기에 종료돼요.

연구진은 AutoLab 벤치마크, 평가 도구, 과제 자료를 공개하여 장기 호리존 에이전트 연구를 가속화할 계획이에요.

##AutoLab##장기최적화##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기