Pulse · AI 뉴스

비전 기반 UAV 항법을 위한 자기 개선 에이전트 강화 학습

AgenticRL · 2026-06-03

연구진은 인간 설계 보상 함수 의존성을 줄이는 AgenticRL 프레임워크를 개발했어요. 이 프레임워크는 GPT 에이전트를 활용해 항법 작업의 보상 함수를 생성하고 정책을 개선해요.

AgenticRL은 GPT 에이전트가 시각 정보와 작업 정보를 해석하여 보상 함수를 생성하고, PPO 알고리즘으로 정책을 학습하며, 정책 평가를 통해 피드백을 제공해요.

실험 결과, AgenticRL의 자기 개선 과정은 초기 보상 대비 정책 행동을 71% 향상시켰고, 시뮬레이션에서 실제 환경으로의 성공률은 91%, 정확도는 94%를 달성했어요.

##강화학습##UAV##GPT##항법##AgenticRL

매일 핵심 AI 소식을 한국어로, 빠르게