연구진은 LLM 기반 에이전트의 다중 모달 임상 예측 성능을 평가하는 AgentRx 벤치마크를 발표했어요. 단일 에이전트 프레임워크가 다중 에이전트 시스템보다 성능이 뛰어나고, 다중 모달 데이터를 더 잘 처리하며, 더 잘 보정된다는 사실을 확인했어요. 연구 결과는 코드와 평가 프레임워크를 공개하여 의료 분야의 에이전트 시스템 개발을 지원할 예정입니다.