연구진이 개인 건강 에이전트 평가를 위한 확장 가능 프레임워크 RubricsTree를 공개했어요. RubricsTree는 100개 이상의 전문가 검증 Boolean 항목으로 구성된 계층적 분류 체계를 사용하며, 4,000건의 실제 사용자 쿼리 분석을 통해 개발됐어요. RubricsTree는 기존 평가 방식보다 전문가와 일치하는 정확도가 높고, Gemini, GPT, Qwen 모델의 HealthBench 성능을 최대 66% 향상시켰어요.