연구진은 LLM의 패치 크기, 배율, 개수 등 디자인 선택이 성능에 미치는 영향을 분석했어요. 최적화되지 않은 설정으로 인해 LLM이 전문 시스템보다 성능이 낮게 평가되었을 가능성이 있어요. GPT-5의 경우, 최적화된 설정을 적용해 성능을 획기적으로 향상시켰어요.
최적화된 설정을 적용한 결과, GPT-5는 암 유형 분류에서 39.5%, 장기 분류에서 62.9%의 정확도를 기록했어요. 이는 기존 성능보다 큰 폭의 개선입니다.
이러한 최적화된 설정은 다른 모델과 새로운 데이터셋에서도 효과를 보이며, Gemini 3 Flash의 성능을 23.4% 향상시켰어요.