Pulse · AI 뉴스

수술 장면 이해를 위한 통합 프레임워크: MLLM을 활용한 추론과 시각적 정합 연결

SurgMLLM · 2026-05-13

연구진은 수술 장면 이해를 위한 통합 프레임워크인 SurgMLLM을 제안하며, 이는 고수준 추론과 저수준 시각적 정합을 하나의 모델로 연결합니다.

SurgMLLM은 다중 모달 대규모 언어 모델(MLLM)을 활용하여 수술 단계, 기구-동사-대상(IVT) 셋, 셋-엔티티 분할 토큰을 동시에 모델링하고, 이를 통해 정확한 픽셀 단위 정합을 가능하게 합니다.

새로운 데이터셋인 CholecT45-Scene을 통해 실험한 결과, SurgMLLM은 기존 방법보다 우수한 성능을 보이며, 수술 장면 이해 분야의 발전에 기여했습니다.

##수술##인공지능##의료##MLLM##컴퓨터비전

매일 핵심 AI 소식을 한국어로, 빠르게