연구진은 분자 진동 코딩 LLM의 성능을 평가하기 위한 새로운 벤치마크 'MolViBench'를 공개했습니다. MolViBench는 5가지 인지 수준의 358가지 과제를 포함하며, 단일 API 기억부터 가상 스크리닝 파이프라인 설계까지 다룹니다. 새로운 벤치마크는 LLM이 프로그래밍, 분자 이해, 도메인 전문 지식을 함께 갖추도록 설계되었습니다.
MolViBench는 기존 벤치마크의 한계를 극복하기 위해 개발되었으며, 실행 가능성과 화학적 정확성을 모두 측정하는 다층 평가 프레임워크를 제안합니다. 9개의 최첨단 코딩 LLM과 3가지 실제 분자 진동 코딩 패러다임을 체계적으로 평가했습니다.
연구 결과는 AI 가속 분자 발견을 위한 LLM의 코딩 능력을 진단하는 데 유용한 테스트베드를 제공합니다.