연구진이 단백질 언어 모델(PLM)의 제어 가능성을 높이는 새로운 프레임워크를 개발했어요. 이 방법은 실제 실험이나 데이터 없이 PLM을 자체 학습하도록 설계됐어요.
모델 불확실성과 단백질 표현 모델을 활용한 의미 일관성을 결합한 보상 시스템을 통해 PLM의 제어 가능성을 평가하고 최적화해요.
Soft Reward Optimization (SRO)과 Binarized Reward Optimization (BRO) 알고리즘은 기존 방법(DPO, KTO)보다 뛰어난 성능을 보이며, 다양한 모델 규모와 단백질 종류에서 오라클 성능에 근접했어요.
연구 결과, 무감독 보상으로 학습된 PLM은 pass@k 평가에서 더 높은 커버리지를 달성하며, 제한된 데이터 환경에서 제어 가능한 생분자 설계를 가능하게 해요.