SurgOnAir는 실시간으로 수술 영상을 처리하여 즉각적인 반응을 가능하게 하는 새로운 비전-언어 모델입니다. 기존 방식은 오프라인 처리나 거친 시간 단위로 작동하여 즉각적인 대응이 어려웠습니다. SurgOnAir는 프레임 단위로 순차적으로 영상을 처리하며, 텍스트를 생성하여 수술 진행 상황에 대한 즉각적인 해설을 제공합니다.
SurgOnAir-11k 데이터셋을 활용하여, 동작, 단계, 단계별 감독을 통해 계층적인 텍스트 응답을 생성하도록 학습했습니다. 특히, 상태 변화를 명시적으로 표시하는 전환 토큰을 사용하여 수술 워크플로우의 주요 전환을 포착하고 신호합니다.
실험 결과, SurgOnAir는 여러 계층의 수술 워크플로우를 통합하여 우수한 계층 구조를 반영한 해설을 생성하는 데 효과적입니다. 코드와 데이터셋은 공개될 예정입니다.