Pulse · AI 뉴스

OmniDrive: LLM 기반 다중 에이전트 세계 모델로 다중 뷰 주행 영상 생성

Qwen · 2026-06-16

OmniDrive는 LLM 기반 다중 에이전트 세계 모델로, 언어·HD 지도·궤적·카메라 포즈를 통합하여 다중 뷰 주행 영상 생성을 제어합니다.

Director, Cartographer, Auditor 3개의 Qwen2.5-VL 에이전트가 협력하여 위치 정보를 가진 단일 토큰 시퀀스를 작성하고, 이를 다중 뷰 영상과 함께 압축합니다.

nuScenes 데이터셋에서 OmniDrive는 다중 뷰 일관성 및 BEV mAP에서 최고 성능을 달성했으며, 합성 데이터로 학습한 검출기는 실제 검증 데이터셋에서 성능이 향상되었습니다.

##LLM##다중에이전트##주행시뮬레이션##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기