Pulse · AI 뉴스

LLM의 유연한 추론 능력 테스트: '수수께끼 수수께끼' 패러다임 도입

arXiv cs.CL · 2026-06-25

연구진이 LLM의 유연한 추론 능력을 테스트하기 위해 '수수께끼 수수께끼' 패러다임을 새롭게 제시했어요. 수수께끼 수수께끼는 인기 수수께끼 형식을 빌려왔지만, 문자 그대로 해석해야 답을 얻을 수 있도록 수정된 단어 문제예요.

실험 결과, LLM은 진짜 수수께끼에서는 높은 정확도를 보였지만, 수수께끼 수수께끼에서는 성능이 저하되는 반면, 인간은 그 반대 현상을 보였어요. LLM은 수수께끼 수수께끼에서 틀린 답안의 90.8%가 부적절한 추론 방식 사용에 기인했어요.

이 연구는 LLM의 강점인 수수께끼 해결 능력이 실제 추론이 아닌 기억 검색에 기반할 수 있음을 시사하며, LLM의 추론 능력을 제대로 평가하기 위해서는 다양한 유형의 문제를 제시해야 함을 강조해요.

결론적으로, LLM은 인간과 다른 방식으로 실수를 하며, LLM의 출력 결과가 실제 추론과 혼동되지 않도록 주의해야 할 필요가 있어요.

##LLM##추론##수수께끼##인공지능##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기