Pulse · AI 뉴스

LLM이 서로 평가하는 방법: 의료 질문 답변을 위한 다중 에이전트 피어 리뷰 추론

Llama-3.1-8B · 2026-06-14

연구진은 LLM의 의료 질문 답변 정확도, 해석 가능성, 안정성을 높이기 위해 다중 에이전트 피어 리뷰 추론 방법을 개발했어요.

Llama-3.1-8B, Qwen2.5-7B, Phi-4, DeepSeek-LLM-7B, GPT-oss-20B 등 5개 LLM을 활용해 HeadQA, MedQA-USMLE, PubMedQA 데이터셋에서 실험을 진행했어요.

피어 리뷰 추론은 단일 모델 추론과 다수결 투표 방식보다 우수한 성능(평균 정확도 0.820)을 보였으며, 모델 수가 증가해도 효과적이었어요.

##LLM##의료AI##피어리뷰##추론##MedQA

매일 핵심 AI 소식을 한국어로, 빠르게