연구진은 의료 분야의 고위험 의사 결정에 필요한 예측 성능과 신뢰성 있는 불확실성 정량화(UQ)를 위한 새로운 다중 레이블 텍스트 분류(MLTC) 벤치마크인 MADE를 발표했습니다.
MADE는 의료기기 부작용 보고서를 기반으로 구축되었으며, 데이터 오염을 방지하기 위해 지속적으로 업데이트되는 지속적인 벤치마크입니다. 이 벤치마크는 계층적 레이블의 장기 꼬리 분포를 특징으로 하며, 엄격한 시간 분할을 통해 재현 가능한 평가를 지원합니다.
연구 결과, 디코더 기반 모델은 높은 정확도와 경쟁력 있는 UQ를 유지하며, 생성적 미세 조정은 가장 신뢰할 수 있는 UQ를 제공하는 것으로 나타났습니다.