연구진이 임상 EHR 환경에서 LLM의 진단 추론 능력을 평가하기 위해 텍스트를 HL7 FHIR R4 번들로 변환하는 파이프라인을 개발했어요. MedCase-Structured 데이터셋을 구축해 진단 정확도를 평가한 결과, 구조화된 FHIR 입력에서 LLM의 정확도가 일반 텍스트보다 낮게 나타났어요. 연구 결과는 실제 임상 환경에 맞는 벤치마킹의 중요성을 강조하며, LLM의 임상 활용 가능성을 높이는 데 기여할 것으로 기대돼요.