Pulse · AI 뉴스

전문가 작성 임상 추론 작업에서 최첨단 언어 모델 비교 연구

Claude · 2026-07-02

연구진이 임상 시나리오 5개를 활용한 새로운 평가 데이터셋을 공개했어요. 이 데이터셋은 마취, 내과/가정의학과, 응급의학과, 산부인과 전문 분야를 포괄하며, 각 시나리오마다 25~62개의 기준을 포함하는 MECE rubric을 사용합니다.

GPT 5.4, Claude Opus 4.7, Gemini 3.1 Pro 모델을 평가한 결과, 평균 rubric 통과율은 각각 47%, 39%, 37%로 나타났어요. 중요한 기준은 통과율이 32.4~41.7%에 불과했습니다.

연구는 임상 우선순위의 역전 현상을 보여주며, 향후 대규모 벤치마크 개발을 위한 확장 가능하고 방어 가능한 파이프라인으로 자리매김할 것으로 기대돼요.

##임상추론##언어모델##평가##ClaudeOpus##GPT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기