연구진은 LLM의 의료 질문 답변 정확도, 해석 가능성, 안정성을 높이기 위해 다중 에이전트 피어 리뷰 추론 방법을 개발했어요.
Llama-3.1-8B, Qwen2.5-7B, Phi-4, DeepSeek-LLM-7B, GPT-oss-20B 등 5개 LLM을 활용해 HeadQA, MedQA-USMLE, PubMedQA 데이터셋에서 실험을 진행했어요.
피어 리뷰 추론은 단일 모델 추론과 다수결 투표 방식보다 우수한 성능(평균 정확도 0.820)을 보였으며, 모델 수가 증가해도 효과적이었어요.