Pulse · AI 뉴스

LLM의 의료 분야 오답 유도에 대한 취약점 연구

MedMisBench · 2026-06-10

연구팀은 LLM이 의료 시험에서 고득점을 받더라도, 오해를 불러일으키는 정보가 주입되면 정답을 틀리는 취약점이 있음을 확인했어요. 이를 '인지적 회복탄력성'이라고 명명하고, 이를 측정하기 위한 MedMisBench 데이터셋을 공개했어요. MedMisBench는 의료 추론, 의사 결정, 환자 여정 평가를 포함한 10,932개의 의료 질문과 48,889개의 오해를 불러일으키는 선택지를 담고 있어요.

11개의 모델을 테스트한 결과, 원래 질문에서는 평균 정확도가 71.1%였지만, 오해를 불러일으키는 정보가 주입되면 38.0%로 급락했으며, 공격 성공률은 51.5%에 달했어요. 특히 권위적인 허위 정보나 예외 상황에 대한 거짓 주장이 가장 큰 영향을 미쳐 공격 성공률이 각각 69.5%와 64.1%로 높게 나타났어요.

7개국에서 온 14명의 임상 전문가 패널은 검토 사례의 38.2%에서 환자에게 심각한 해를 끼칠 가능성이 있다고 판단했어요. 연구팀은 LLM 평가 시 기존 벤치마크가 모델의 지식을 측정하는 데 집중하는 반면, 오해의 소지가 있는 상황에서도 정확한 의료적 판단을 유지하는 능력은 간과하고 있다고 지적했어요.

##LLM##의료##안전성##평가##MedMisBench
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기