연구진은 수술 장면 이해를 위한 통합 프레임워크인 SurgMLLM을 제안하며, 이는 고수준 추론과 저수준 시각적 정합을 하나의 모델로 연결합니다.
SurgMLLM은 다중 모달 대규모 언어 모델(MLLM)을 활용하여 수술 단계, 기구-동사-대상(IVT) 셋, 셋-엔티티 분할 토큰을 동시에 모델링하고, 이를 통해 정확한 픽셀 단위 정합을 가능하게 합니다.
새로운 데이터셋인 CholecT45-Scene을 통해 실험한 결과, SurgMLLM은 기존 방법보다 우수한 성능을 보이며, 수술 장면 이해 분야의 발전에 기여했습니다.