Pulse · AI 뉴스

LLM 행동의 인지 퇴화 측정 및 이해 연구

arXiv cs.AI · 2026-06-17

연구진은 정신 건강 지원 LLM의 행동에서 '인지 퇴화'라는 새로운 평가 기준을 제시했어요. 기존 벤치마크는 LLM의 지식, 안전성, 정적 응답 품질만 평가하지만, 실제 감정적으로 민감한 상호작용에서 사용자의 성찰, 대처, 의사 결정 능력을 저해하는지 여부는 놓치고 있어요.

연구팀은 임상적 근거를 바탕으로 1,576개의 상담 대화로 구성된 '인지 퇴화 벤치'를 구축하고, 20가지 속성으로 구성된 평가 기준을 개발하여 5개의 LLM을 평가했어요. 그 결과, LLM은 단일 및 다중 턴 설정에서 일관되게 중간에서 높은 수준의 인지 퇴화 행동을 보였어요.

연구는 LLM의 행동을 감사하는 데 필요한 기반을 제공하며, 특히 사용자가 문제 해결이나 의사 결정을 추구할 때 모델이 안전에 대한 명시적 신호에 덜 신뢰성 있게 대응하는 점을 강조해요.

##LLM##인지퇴화##정신건강##벤치마크##AI윤리
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기