Reddit 사용자가 6x6 Othello 보드에서 AlphaZero 모델 훈련 시 값 예측 부재 문제를 겪고 있으며, 데이터 생성 과정의 하이퍼파라미터 설정과 훈련 데이터 통계적 특성을 분석했습니다.
초기 탐험을 늘리고 디리클레 노이즈를 추가, 온도를 조절했지만, 기존 MCTS 및 그리디 에이전트 대비 성능 향상이 미미하며 값 예측 성능도 개선되지 않았습니다.
훈련 데이터의 예측 엔트로피는 초기 모델에서부터 뾰족하게 나타나며, 모델 간 KL-divergence는 빠르게 안정화되는 경향을 보입니다. 하이퍼파라미터 재검토 및 데이터 특성 분석을 통해 문제 해결을 시도 중입니다.