연구팀은 LLM이 의료 시험에서 고득점을 받더라도, 오해를 유도하는 정보가 포함된 질문에 쉽게 속아 넘어간다는 사실을 밝혀냈습니다. 이를 '인지적 회복탄력성'이라고 명명하고, 새로운 벤치마크인 MedMisBench를 통해 측정했습니다. MedMisBench는 의료 지식, 문제 해결 능력, 환자 여정 평가를 포함하는 10,932개의 질문과 48,889개의 오해를 유도하는 선택지를 담고 있습니다.
11가지 모델 구성에서 평균 정확도가 원래 질문에서는 71.1%였지만, 의도적으로 오해를 유도하는 정보가 포함된 질문에서는 38.0%로 급락했으며, 공격 성공률은 51.5%에 달했습니다. 특히 권위적인 거짓 정보나 예외 상황을 악용한 주장이 가장 큰 피해를 줬습니다.
7개국에서 온 14명의 의료 전문가 패널은 검토한 사례의 38.2%에서 환자에게 심각한 해를 끼칠 수 있는 잠재적 위험을 확인했습니다. MedMisBench는 LLM 평가의 맹점을 드러내며, 모델이 얼마나 알고 있는지 측정하는 것 외에 오해를 유도하는 상황에서도 정확한 의료 판단을 유지하는지 평가해야 함을 강조합니다.