연구진은 노이즈가 많고 일관성이 떨어지는 기존의 instructional 비디오 데이터셋 문제를 해결하기 위해 DenseStep2M이라는 새로운 파이프라인을 개발했어요.
이 파이프라인은 Qwen2.5-VL과 DeepSeek-R1 모델을 활용하여 약 10만 개의 비디오와 200만 개의 상세한 절차적 단계를 포함하는 대규모 데이터셋을 생성했어요.
DenseStep2M 데이터셋을 활용한 모델은 비디오 캡셔닝 및 절차적 단계 파악 성능이 향상되었으며, 다양한 시점에서도 뛰어난 성능을 보였어요.