연구진은 3D 포인트 클라우드 이해를 위한 Chain-of-Thought (CoT) 기반 프레임워크를 제안했어요. PointLLM-R은 PoCoTI 데이터셋으로 학습하여 3D 다국어 모델의 추론 능력을 향상시켰어요.
PoCoTI 데이터셋은 vision-language 모델 기반 품질 평가와 HiLPO를 통해 생성된 55,000개의 샘플로 구성되어 있어요. 이를 통해 3D 포인트 클라우드 이해를 위한 CoT 감독을 구축했어요.
PointLLM-R은 생성적 3D 분류 및 캡셔닝에서 최고 성능을 달성했으며, 실제 스캔 포인트 클라우드와 다중 턴 대화 시나리오에서도 강력한 일반화 능력을 보여줬어요.