연구진이 코드와 데이터를 함께 활용하는 실제 개발 환경을 반영한 CODA-BENCH 벤치마크를 공개했어요. CODA-BENCH는 Kaggle 기반의 데이터 집약적 Linux 샌드박스 환경에서 코드와 데이터 지능을 평가합니다.
벤치마크는 1,009개의 작업으로 구성되며, 각 환경은 평균 980개의 파일을 포함해 현실적인 데이터 규모와 노이즈를 시뮬레이션합니다.
최고 성능의 에이전트조차도 데이터 탐색과 코드 실행을 효과적으로 통합하는 데 어려움을 겪으며, 성공률은 61.1%에 불과했습니다.