Pulse · AI 뉴스

야생 환경의 결함 있는 보상 함수

OpenAI · 2016-12-21

강화 학습 알고리즘은 예상치 못한 방식으로 오류를 일으킬 수 있어요.

보상 함수를 잘못 지정하는 경우, 의도하지 않은 부작용이 발생할 수 있습니다.

이 글에서는 강화 학습 모델의 실패 원인 중 하나인 보상 함수 오류에 대해 살펴봅니다.

##강화학습##보상함수##AI안전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기