연구진은 학습 시 불완전한 다중 모드 관찰 환경에서 학습하는 IML 문제를 해결하기 위해 LIMSSR(LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning) 프레임워크를 제안했습니다.
LIMSSR은 LLM의 추론 능력을 활용하여 사용 가능한 컨텍스트에서 잠재적인 의미를 추론하고, Mask-Aware Dual-Path Aggregation을 통해 추론 불확실성을 보정합니다.
세 가지 Action Quality Assessment 데이터셋에서 실험 결과 LIMSSR은 기존 방법보다 성능이 우수했으며, 완전한 학습 데이터를 사용하지 않고도 데이터 효율적인 다중 모드 학습을 가능하게 했습니다.