Medmarks는 의료 분야 LLM 평가를 위한 30개의 벤치마크를 포함하는 오픈소스 평가 도구입니다. Gemini 3 Pro Preview, GPT-5.1, GPT-5.2 등 최첨단 모델이 가장 높은 성능을 보였으며, 의료 분야에 특화된 모델이 일반 모델보다 우수한 성능을 나타냈습니다. Medmarks의 일부 평가 도구는 LLM의 의료 분야 추론 능력을 향상시키기 위한 강화 학습 환경으로 활용될 수 있습니다.