연구진은 복잡한 환경에서 안전한 자율 주행 결정을 내리기 위해 시각-언어 모델(VLM)을 활용하는 C-CoT(반사실적 연쇄적 사고) 프레임워크를 제안했습니다.
C-CoT는 장면 묘사, 위험 예측, 반사실적 위험 추론, 최종 행동 계획의 5단계로 의사 결정을 분해하며, 메타-액션 평가 트리를 통해 잠재적 결과를 평가합니다.
Qwen2.5-VL (7B) 모델을 LoRA로 튜닝하여 DeepAccident-CCoT 데이터셋에서 위험 예측 리콜 81.9%, 충돌률 3.52%, L2 오차 1.98m을 달성했습니다.