연구진은 o3, DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct, BioMistral-7B 등 5개 LLM의 영어와 프랑스어 진단 추론 성능을 비교했어요. 180건의 임상 시나리오를 평가한 결과, 5개 모델 중 4개 모델이 영어에서 더 나은 성능을 보였어요. o3 모델은 언어에 따른 성능 차이가 없었어요.