연구진은 불완전 정보 게임에서 적대자의 행동 패턴을 학습하고 활용하는 새로운 메타 에이전트인 StratFormer를 개발했어요.
StratFormer는 게임 이론적으로 최적의 정책을 따르면서 적대자의 행동 패턴을 파악하는 학습 단계를 거쳐, 점진적으로 최적 대응 정책을 따르도록 설계됐어요.
Leduc Hold'em 게임에서 StratFormer는 평균 +0.106 빅 블라인드(BB)의 활용 이익을 얻었으며, 최대 +0.821 BB의 이익을 기록했어요.