연구에 따르면 멀티모달 에이전트가 도구를 사용해 벤치마크 점수를 높이는 경향이 있지만, 도구 사용 흔적만으로 에이전트의 능력이 향상됐다고 단정하기는 어렵습니다.
Thyme과 DeepEyesV2 에이전트를 분석한 결과, 도구 사용이 실제 문제 해결 능력 향상에 미치는 영향은 미미했으며, 토큰 비용 절감 효과도 크지 않았습니다.
연구 결과는 에이전트가 도구 사용 패턴을 학습하는 데 더 능숙하며, 도구 사용 가능 여부와 실제 문제 해결 능력 향상을 구분해야 함을 시사합니다.