연구진은 불완전한 장기 EHR 데이터에서 치료 효과를 추정하기 위한 2단계 파이프라인을 제안했습니다. 첫 번째 단계는 DAG 제약 조건과 LSTM 인코딩을 갖춘 CausalFlow-T 정규화 흐름을 사용하여 정확한 가역적 반사실 추론을 수행합니다. 두 번째 단계는 LLM 기반 진화형 보정기를 도입하여 개별 항목 대신 실행 가능한 보정 연산자를 제안합니다.
CausalFlow-T는 30~80%의 MNAR 결측치에서 가장 우수한 성능을 보였으며, 포인트 정확도와 시간 외삽을 유지하면서 평균 치료 효과(ATE) 회복력을 보존했습니다. 연구진은 스위스 1차 진료 EHR 데이터를 사용하여 GLP-1 수용체 작용제 또는 SGLT-2 억제제를 시작한 2형 당뇨병 환자의 프로토콜별 체중 감소 차이를 추정했습니다.
새로운 파이프라인은 GLP-1 수용체 작용제를 선호하는 -0.98kg [95% CI -1.01, -0.96]의 체중 감소 차이를 추정했으며, 이는 무작위화된 증거와 일치하고 현실적으로 불완전한 실제 EHR 데이터에서 얻은 결과입니다.