연구팀은 임상의들이 ChatGPT를 활용하는 실제 업무 환경을 반영한 새로운 벤치마크 'HealthBench Professional'을 공개했어요.
이 벤치마크는 진료 상담, 문서 작성, 의료 연구 등 세 가지 주요 임상 업무 사용 사례를 중심으로 설계되었으며, 의사들이 직접 작성한 대화와 평가 기준을 활용했어요.
GPT-5.4가 인간 의사보다 높은 점수를 기록하며 뛰어난 성능을 보였으며, 향후 의료 AI 모델의 발전 추이를 측정하는 데 활용될 것으로 기대돼요.