AcademiClaw는 대학생들의 실제 학업 워크플로우에서 추출한 80개의 복잡한 장기 과제 벤치마크입니다. 현재 AI 에이전트가 효과적으로 해결하지 못하는 문제들을 다룹니다.
230개의 학생 제출 과제 중 엄격한 검토를 거쳐 선별되었으며, 올림피아드 수학, 시스템 디버깅 등 25개 이상의 전문 분야를 포괄합니다.
6개의 최첨단 모델을 실험한 결과, 최고 성능 모델도 55%의 성공률을 기록했으며, 토큰 소비와 출력 품질 간의 불일치 등 중요한 분석 결과를 도출했습니다.