EggHand는 에고센트릭 비디오에서 미래 3D 손 포즈 시퀀스를 예측하는 프레임워크입니다. VLA 모델의 액션 디코더와 에고센트릭 비디오-텍스트 인코더를 결합하여 복잡한 인간 의도와 시점 변화를 고려합니다. EgoExo4D 데이터셋 실험 결과, EggHand는 예측 정확도 측면에서 최고 수준을 달성하고, 에고 모션에 강건함을 보였습니다.