연구진은 포커에서 네이슈 균형을 넘어 비효율적인 플레이를 이용하는 AI 에이전트 '알파익스플로이템'을 개발했습니다. 알파익스플로이템은 이전 핸드에 대한 추론이 가능한 계층적 트랜스포머 인코더를 사용하고, 다양한 약점을 가진 상대방 풀을 포함하여 학습 절차를 수정합니다.
알파익스플로이템은 표준 벤치마크에서 학습하여 약점을 가진 상대방의 플레이를 성공적으로 이용하며, 동시에 네이슈 균형 상대방에 대한 성능 저하를 방지합니다.
이 연구는 불완전 정보 게임에서 의사 결정의 불확실성을 해결하고, AI 에이전트가 약점을 파악하여 활용하는 방법을 제시합니다.