이 기사는 NVIDIA 젯슨 오린 나노 슈퍼에 제마 4 VLA(Vision Language Agent) 데모를 실행하는 방법을 안내합니다.
데모는 사용자의 질문에 따라 웹캠을 활용하여 답변하는 방식으로, STT, 제마 4, TTS 모델을 통합하여 로컬에서 실행됩니다.
필요한 시스템 패키지 설치, 파이썬 환경 설정, 메모리 확보, 제마 4 서버 실행, 마이크, 스피커, 웹캠 설정 등의 단계를 자세히 설명합니다.
제마 4는 질문의 내용에 따라 웹캠을 켜고 사진을 찍어 해석하여 답변하며, 사용자는 SPACE 키를 눌러 녹음 및 중지할 수 있습니다.
전체 스크립트는 GitHub에서 제공되며, 모델 및 비전 프로젝터는 허깅페이스에서 다운로드하여 사용할 수 있습니다.