연구진은 LLM과 멀티 에이전트 시스템을 활용해 의료 분야 추론 가능성을 보이는 에이전트 AI의 두 가지 문제점, 조기 진단 인수인계와 은닉적 환각 현상을 해결하기 위한 프레임워크를 제안했어요.
OLDCARTS 프로토콜(발병, 위치, 지속 시간, 특징, 악화/완화 요인, 방사, 시간, 심각도) 완전성 추적 게이트와 5개의 독립적인 진단 샘플 간 의미론적 엔트로피(H)를 계산하는 불확실성 정량화 게이트를 통합하여 안전 장치를 마련했어요.
llama-3.1-70b-instruct 모델로 구동되는 시뮬레이션 환자 에이전트 150건의 테스트에서 49.3%의 진단 정확도를 달성하며, 제약 없는 기준선보다 11.3% 향상된 성능을 보였어요.