본 연구는 두 명의 플레이어가 참여하는 제로섬 게임에서 내쉬 균형이 유일하지 않고 볼록 집합(다면체)을 이룰 때, 솔버에 따라 균형 선택이 달라지는 현상을 분석합니다.
6개의 게임을 테스트한 결과, 정규화된 마지막 반복 방법(R-NaD)은 최대 엔트로피를 갖는 균형을 선택하는 반면, 후회 평균 방법(CFR, CFR+, 가짜 플레이)은 엔트로피가 낮은 면으로 이동하는 경향을 보입니다.
최대 엔트로피 균형은 비최적의 상대방에 대한 더 나은 방어 전략을 제공하지만, 행렬 게임에서는 특정 균형이 다른 균형을 지배하지 않습니다.