AlphaZero 에이전트는 자체 학습 데이터를 기반으로 게임 상태의 가치를 예측합니다. 이 가치는 주어진 상태에서 자신과의 대결에서 승리할 확률을 반영합니다.
에이전트는 무작위성을 추가하여 성공적인 행동을 찾을 기회를 제공하고 획일적인 패턴에 갇히지 않도록 합니다.
예측 데이터에는 '이상치' 움직임도 포함되어 있으며, 이는 모델이 다양한 플레이어와의 경험을 바탕으로 예측한다는 주장의 근거가 됩니다.
AlphaZero의 가치 예측은 에이전트의 플레이 스타일과 역사적 발전이 지배하며, 강한 상대를 만났을 때 신뢰할 수 있는 지표가 될 수 있을지 의문입니다.