Pulse · AI 뉴스

반복 게임에서 적응형 상대방을 고려한 후회 최소화

arXiv cs.AI · 2026-06-05

본 논문은 반복 게임에서 상대방이 플레이 기록에 대응할 수 있는 '적응형' 환경에서 후회 최소화를 연구해요.

기존 외부 후회 지표는 이러한 적응성을 제대로 반영하지 못하기 때문에, 플레이 기록에 대한 '반복 정책 후회(RP-Regret)'라는 새로운 지표를 도입했어요.

RP-Regret은 모든 플레이어가 플레이 기록에 대응할 수 있는 상황에서, 실제 누적 효용과 최선의 사후 효용 간의 차이를 측정하며, 기존 지표보다 강력한 비교 기준을 제공해요.

RP-Regret 최소화 알고리즘을 통해 반복 게임의 서브게임 완전 균형을 학습하고, Stag-Hunt 게임에서 더 협력적인 해결책을 도출할 수 있어요.

##게임이론##후회최소화##반복게임##적응형상대방

매일 핵심 AI 소식을 한국어로, 빠르게