Pulse · AI 뉴스

랜덤화 최소 제곱 값 반복법, 조인트 차등 개인정보 보호와 함께

arXiv cs.LG · 2026-06-01

강화 학습(RL)이 의료, 추천 시스템 등 민감한 분야에 적용되면서 개인정보 보호 기술이 중요해지고 있어요. 본 연구는 랜덤화 최소 제곱 값 반복법(RLSVI) 기반의 개인정보 보호 RL 알고리즘을 분석해요. RLSVI의 탐색 과정에서 주입되는 노이즈가 개인정보 보호를 동시에 제공하는 새로운 개인정보 보호 분석 결과를 제시했어요.

표준 MDP 환경에서 RLSVI는 $(\varepsilon(δ),δ)$-조인트 차등 개인정보 보호를 제공하며, 개인정보 보호 수준은 $\varepsilon(δ) = \frac{2AK}{H^2\log(2HSA)} + 2\sqrt{\frac{2AK\log(1/δ)}{H^2\log(2HSA)}}$로 정의돼요. 여기서 $S$와 $A$는 각각 상태와 행동의 개수, $H$는 에피소드의 길이, $K$는 에피소드의 개수를 의미해요.

본 연구는 개인정보 보호 RL 분야에 기여하며, RLSVI의 개인정보 보호 메커니즘에 대한 이해를 높일 수 있을 것으로 기대돼요.

##강화학습##개인정보보호##RLSVI##차등개인정보보호

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기