Pulse · AI 뉴스

BioMedArena: 의료 AI 연구 에이전트 구축 및 평가를 위한 오픈소스 툴킷 출시

BioMedArena · 2026-05-07

BioMedArena는 의료 AI 연구 에이전트의 성능 평가 및 모델 통합을 위한 오픈소스 툴킷입니다. 기존 연구마다 평가 방식이 달라 발생하는 '페이퍼 엔지니어링 세금' 문제를 해결합니다. 147개의 의료 벤치마크와 75개의 의료 도구를 제공하며, 새로운 모델이나 도구를 추가하는 데 필요한 작업량을 최소화합니다.

6가지 에이전트 하니스와 6가지 컨텍스트 관리 전략을 제공하여 12개의 강력한 연구 백본을 구축하고, 8개의 대표적인 의료 벤치마크에서 기존 최고 성능(SOTA)을 15.03% 이상 능가하는 결과를 달성했습니다. 새로운 모델, 벤치마크, 도구를 추가하는 것은 몇 줄의 어댑터 등록으로 간단합니다.

툴킷, 설정 파일, 작업 추적 정보는 GitHub 저장소에서 확인할 수 있습니다 (https://github.com/AI-in-Health/BioMedArena)

##오픈소스##의료AI##에이전트##벤치마크##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기