Pulse · AI 뉴스

절차적 지도 생성으로 강화학습 탐색의 일반화 성능 향상

MuRoSim · 2026-05-04

연구진은 강화학습 탐색 정책이 훈련 환경 구조에 과적합되는 문제를 해결하기 위해 절차적 지도 생성 기술을 활용했습니다. 4가지 지도 생성기를 통합하여 MuRoSim 시뮬레이터 환경에서 정책의 일반화 성능을 평가했습니다. A* 경로 계획기 기반의 부분 목표 입력은 정책의 강건성을 크게 향상시키는 것으로 나타났습니다.

연구 결과, 절차적 지도 생성기를 결합하여 훈련한 정책은 평균 91.5%의 성공률을 기록했으며, 이는 기존 방식보다 훨씬 높은 수치입니다. 또한, 강화학습 정책은 기존의 Carrot+A* 컨트롤러보다 우수한 성능을 보였으며, 특히 속도 적응 능력에서 두드러진 차이를 보였습니다.

실제 로봇 실험에서는 시뮬레이션 환경에서 학습한 정책이 실제 환경에서도 효과적으로 작동하는 것을 확인했으며, 미로 형태의 환경에서는 GRU 순환 신경망을 활용하여 추가적인 성능 개선을 이루었습니다.

##강화학습##탐색##시뮬레이션##절차적생성##MuRoSim

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기