연구자가 생물학적 가능성이 높은 에이전트가 퐁 게임에서 PPO 성능에 얼마나 근접할 수 있는지 실험했어요. 예측 코딩과 분포적 Hebbian 가소성을 결합한 생물학적 에이전트는 57%의 성능을 기록했어요.
PPO 대비 2% 차이는 크지 않지만, 비정상적인 상대방 역학 하에서 빠른 망각이 주요 병목 현상으로 나타났어요. 분포적 가치 인코딩은 안정성을 높였지만, PPO를 능가하지 못했어요.
연구 결과, 생물학적 가능성이 높은 강화 학습에서 비정상적인 환경에서 가소성과 안정성 사이의 딜레마가 중요한 과제임을 보여줬어요.