Pulse · AI 뉴스

LLM의 임상 AI 실패 원인: 추론 단계 수에 따른 성능 저하

OpenAI · 2026-06-16

연구진은 대규모 언어 모델(LLM)이 전자 건강 기록(EHR) 질문 답변에서 추론 단계가 복잡해질수록 오류가 증가하는 현상을 발견했어요.

Claude Sonnet, GPT-4o, GPT-5.4 모델 모두 추론 단계 수가 증가함에 따라 정확도가 감소했는데, Claude Sonnet은 1단계에서 30.6% 정확도를 보였지만 4단계에서는 17.6%로 떨어졌어요.

연구 결과, LLM의 성능 저하는 EHR 데이터 잘림 때문이 아니라 복합적인 추론 능력의 한계 때문이며, 확장된 사고(extended thinking)도 성능 향상에 큰 영향을 미치지 못했어요.

연구진은 추론 단계 수를 활용해 LLM의 오류를 예측하고, 임상 AI 배포 시 위험도를 평가하는 데 활용할 수 있다고 밝혔어요.

##LLM##임상AI##EHR##GPT-5

매일 핵심 AI 소식을 한국어로, 빠르게