연구팀은 LLM이 단계별 산술 알고리즘을 얼마나 정확하게 수행하는지 진단하기 위한 벤치마크를 개발했습니다. 벤치마크는 알고리즘 길이와 중간 변수에 대한 의존성을 늘려 복잡성을 높입니다. 14개 모델과 55개 데이터셋을 분석한 결과, 단계가 늘어날수록 첫 번째 답변 정확도가 61%에서 20%로 감소했습니다.
실패 원인으로는 답 누락, 조기 답변, 초기 오류 후 자체 수정, 미흡한 실행 추적, 환각된 추가 단계 등이 확인되었습니다. 이러한 결과는 LLM의 추론 능력이 실제 지시 실행의 약점을 가릴 수 있음을 시사합니다.
연구팀은 LLM이 복잡한 절차를 수행하는 데 어려움을 겪으며, 이는 LLM의 신뢰성을 높이기 위한 추가 연구가 필요함을 보여줍니다.