MolSight는 분자 이미지 이해를 위한 새로운 그래프 기반 비전-언어 모델 프레임워크입니다. 기존 모델의 한계를 극복하기 위해 분자 토폴로지 모듈과 분자 정렬 모듈을 통합했습니다. 실험 결과, MolSight는 기존 모델과 도구보다 뛰어난 성능을 보였습니다.
MolSight는 화학 결합 인접 정보가 포함된 비전 토큰을 생성하는 분자 토폴로지 모듈과 시각적 특징을 화학적 의미와 정렬하는 분자 정렬 모듈을 활용합니다. 이를 통해 분자 이미지 추론 능력을 향상시켰습니다.
다양한 화학적 시각 이해 작업에서 기존 VLM, 분자 LLM, 특수 도구보다 우수한 성능을 기록하며 분자 이미지 추론의 새로운 지평을 열었습니다.