연구진은 LLM이 환자 이야기에서 정신과적 위험을 식별할 수 있는지 평가하고, 진단, 인구 통계 하위 그룹 및 증거 활용 패턴에 따른 신뢰성을 조사했어요. GPT-4.1 Mini와 GPT-5 Mini가 가장 일관된 질병별 정확도를 보였으며, 남성 참가자에게서 우울증 분류 정확도가 더 높았어요. LLM은 기능 보존 또는 보호 맥락에서 증상 증거를 할인하는 경향이 있어, 임상 배포 전에 신중한 검증이 필요해요.