Pulse · AI 뉴스

LongDS-Bench: 장기 데이터 분석 에이전트의 실패 원인 분석

LongDS · 2026-05-28

연구진은 반복적인 실제 데이터 분석 과정을 반영하지 못하는 기존 벤치마크의 한계를 지적하며, 장기적인 분석 맥락을 추적하는 에이전트의 능력을 평가하는 LongDS 벤치마크를 공개했어요.

LongDS는 68개의 Kaggle 노트북 기반으로 2,225턴의 대화로 구성되며, 평균 11.3턴의 의존성 스팬을 가지는 다양한 데이터 분석 시나리오를 포함하고 있어요.

5가지 최신 모델 평가 결과, 평균 정확도는 48.45%에 불과하며, 분석 과정이 진행될수록 성능이 저하되고, 장기 분석 오류가 전체 실패의 상당 부분을 차지하는 것으로 나타났어요.

##데이터분석##에이전트##벤치마크##LongDS

매일 핵심 AI 소식을 한국어로, 빠르게