연구진이 그래프 조합 최적화(GCO) 문제 해결을 위한 새로운 RL 접근 방식 '프로젝션 에이전트'를 제안했어요. 이 방법은 GNN 기반의 연속적인 액션 임베딩 공간에서 작동하며, 원하는 잠재 액션을 예측하고 유효한 이산 액션으로 디코딩해요.
기존 방식 대비 최대 16.2배 빠른 추론 속도와 40% 향상된 일반화 성능을 달성했으며, 여러 상호 의존 변수를 가진 초선형 의사 결정 공간에서도 강력한 RL 성능을 보장해요.
연구진은 잠재 액션 공간 구축을 자동화하고 기존 RL-GCO 솔루션을 지원하는 Python 라이브러리 LaGCO-RL을 공개하여 재현성 및 새로운 GCO 벤치마크 적용을 용이하게 했어요.