연구진은 SMILES 문자열을 처리하는 Transformer 기반 언어 모델의 지역성 격차 문제를 해결하기 위해 MolGram을 제안했어요. MolGram은 조건부 n-gram 메모리 모듈을 통합하여 지역 문자열 패턴을 학습된 임베딩에 매핑하고, 이를 숨겨진 상태에 주입해요. 무조건적 분자 생성, 순방향 반응 예측, 단일 단계 역합성 등 세 가지 작업에서 성능이 향상된 것을 확인했어요.
MolGram은 기존 모델보다 3배 더 많은 파라미터를 사용하지 않고도 성능을 개선하여, 효율적인 유도 편향으로 지역 패턴 메모리의 효능을 입증했어요. 기존 토크나이저를 방해하지 않으면서 화학적으로 의미 있는 모티프를 유지하는 데 효과적이에요.
연구 결과는 분자 언어 모델의 성능 향상을 위한 새로운 접근 방식으로서의 가능성을 보여줘요.