HealthBench는 의료 분야 AI 모델의 성능과 안전성을 평가하는 새로운 벤치마크예요. 250명 이상의 의사들의 의견을 반영하여 실제 의료 시나리오에서 모델을 평가하도록 설계됐어요. HealthBench는 모델 성능과 안전성에 대한 공유된 기준을 제공하는 것을 목표로 하고 있어요.