OralMLLM-Bench는 치과 방사선 사진 분석에 필요한 다중 모드 LLM의 인지 능력을 평가하기 위한 벤치마크입니다. 3가지 방사선 촬영 모드와 4가지 인지 범주(지각, 이해, 예측, 의사 결정)를 포함합니다. GPT-5.2와 GLM-4.6을 포함한 6개의 LLM을 평가하여 임상가와 모델 간의 성능 차이를 확인했습니다.
벤치마크는 공개 데이터 세트에서 파생된 27가지 임상 기반 작업을 포함하며, 수동으로 큐레이션된 주석과 3,820명의 임상의 평가를 통해 평가되었습니다. 모델의 강점과 한계를 명확히 하고 실패 패턴을 특성화하여 AI 시스템 개발에 대한 권장 사항을 제공했습니다.
이 데이터 리소스는 임상 인지, 안전 요구 사항 및 치과 진료의 워크플로 복잡성과 일치하는 차세대 인공 지능 시스템 개발을 지원할 것입니다.