최근 임상 환경에서 LLM 활용이 증가하면서, 의료 텍스트 생성 및 임상 추론 과정에서 인종 차별 편향 문제가 제기되었어요.
연구진은 EU AI 법 규정을 기준으로 5가지 LLM을 평가했으며, 합성 환자 사례 생성 및 감별 진단 순위 결정 두 가지 과제에서 편향을 분석했어요.
에이전트 워크플로우를 적용한 DeepSeek V3 모델은 특정 지표에서 편향 감소 효과를 보였으며, 이는 의료 환경에서 AI 시스템의 다각적인 편향 평가의 중요성을 시사해요.