ScriptHOI는 인간-객체 상호작용(HOI) 감지를 위해 스크립트 상태 전환 프레임워크를 제안합니다. 모델은 HOI 구문을 몸-역할, 접촉, 기하학, 활용, 동작, 객체-상태 슬롯으로 분해하여 시각적 증거를 보정하고 잘못된 예측을 줄입니다.
시각적 상태 토크나이저는 감지된 인간-객체 쌍을 해당 상태 토큰으로 파싱하고, 슬롯별 매처는 스크립트 커버리지와 스크립트 충돌을 추정합니다.
간격 부분 레이블 학습을 통해 미주얼 후보를 제한하고, 반사실 스크립트 대비 손실을 도입하여 객체 중심의 단축키를 방지합니다.