Pulse · AI 뉴스

CODA-BENCH: 코드 에이전트, 데이터 집약적 작업도 처리할 수 있을까

CODA-BENCH · 2026-06-13

연구진이 코드와 데이터를 함께 활용하는 실제 개발 환경을 반영한 CODA-BENCH 벤치마크를 공개했어요. CODA-BENCH는 Kaggle 기반의 데이터 집약적 Linux 샌드박스 환경에서 코드와 데이터 지능을 평가합니다.

벤치마크는 1,009개의 작업으로 구성되며, 각 환경은 평균 980개의 파일을 포함해 현실적인 데이터 규모와 노이즈를 시뮬레이션합니다.

최고 성능의 에이전트조차도 데이터 탐색과 코드 실행을 효과적으로 통합하는 데 어려움을 겪으며, 성공률은 61.1%에 불과했습니다.

##에이전트##벤치마크##데이터

매일 핵심 AI 소식을 한국어로, 빠르게