Pulse · AI 뉴스

HealthBench Professional: 임상의 실제 대화에서 LLM 평가

OpenAI · 2026-04-30

연구팀은 임상의들이 ChatGPT를 활용하는 실제 업무 환경을 반영한 새로운 벤치마크 'HealthBench Professional'을 공개했어요.

이 벤치마크는 진료 상담, 문서 작성, 의료 연구 등 세 가지 주요 임상 업무 사용 사례를 중심으로 설계되었으며, 의사들이 직접 작성한 대화와 평가 기준을 활용했어요.

GPT-5.4가 인간 의사보다 높은 점수를 기록하며 뛰어난 성능을 보였으며, 향후 의료 AI 모델의 발전 추이를 측정하는 데 활용될 것으로 기대돼요.

##벤치마크##의료AI##GPT-5

매일 핵심 AI 소식을 한국어로, 빠르게