연구진이 코드와 데이터를 함께 활용하는 작업 환경을 평가하는 새로운 벤치마크 CODA-BENCH를 공개했어요. CODA-BENCH는 Kaggle 기반의 데이터 집약적 Linux 샌드박스 환경에서 에이전트의 코드 생성 및 데이터 탐색 능력을 평가합니다. 현재 최고 성능의 에이전트도 61.1%의 낮은 성공률을 기록하며 데이터 중심 작업에 대한 에이전트의 한계를 드러냈어요.