연구진은 질량 분석 데이터로부터 대사체를 정확하게 식별하는 데 어려움을 겪는 문제를 해결하기 위해 Molecule Retrieval (화학 구조 복구) 작업을 제안했습니다.
MSAlign 프레임워크는 DreaMS (질량 스펙트럼)와 ChemBERTa (분자)와 같은 두 개의 고정된 기반 모델을 경량 MLP 투영을 통해 정렬하여 공유 표현 공간을 학습합니다.
MSAlign은 구현이 간단하고 학습 속도가 빠르며 기존 방법보다 모든 벤치마크에서 성능이 우수하며, 데이터 분할 전략의 문제점을 분석하고 공개 데이터셋과 코드를 공개했습니다.