연구진이 동적 차트 이해 능력을 평가하는 ChartAct 벤치마크를 발표했어요. 8개 웹사이트에서 수집한 673개의 동적 차트로 구성되어 있으며, 호버, 클릭, 확대/축소 등 상호작용을 통해 변화하는 차트 상태를 이해하는 능력을 측정해요. Claude Opus 4.7은 평균 성공률 84.5%를 기록했지만, 대부분의 모델은 60% 미만의 성능을 보였어요.
ChartAct은 7가지 일반적인 차트 유형을 포함하고 있으며, Dynamic Chart와 Dashboard Chart 두 환경에서 질문-답변 샘플 1,440개를 구성했어요. 이를 통해 모델이 차트의 보이는 콘텐츠를 식별하고 적절한 상호작용을 선택하며 변화하는 차트 상태를 추론하는지 평가해요.
연구 결과, 기존 모델들은 동적 차트 이해에 명확한 한계를 드러냈으며, ChartAct은 실제 인터랙티브 환경에서 차트 이해를 연구하기 위한 새로운 벤치마크를 제공할 것으로 기대돼요. 관련 코드는 GitHub에서 확인할 수 있어요.