Pulse · AI 뉴스

LLM이 단계별 지시를 따르지 못할 때: 절차적 실행 진단 연구

arXiv cs.CL · 2026-05-02

연구팀은 LLM이 단계별 산술 알고리즘을 얼마나 정확하게 수행하는지 진단하기 위한 벤치마크를 개발했습니다. 벤치마크는 알고리즘 길이와 중간 변수에 대한 의존성을 늘려 복잡성을 높입니다. 14개 모델과 55개 데이터셋을 분석한 결과, 단계가 늘어날수록 첫 번째 답변 정확도가 61%에서 20%로 감소했습니다.

실패 원인으로는 답 누락, 조기 답변, 초기 오류 후 자체 수정, 미흡한 실행 추적, 환각된 추가 단계 등이 확인되었습니다. 이러한 결과는 LLM의 추론 능력이 실제 지시 실행의 약점을 가릴 수 있음을 시사합니다.

연구팀은 LLM이 복잡한 절차를 수행하는 데 어려움을 겪으며, 이는 LLM의 신뢰성을 높이기 위한 추가 연구가 필요함을 보여줍니다.

##LLM##진단##절차적_실행##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기