Pulse · AI 뉴스

안전한 AI 시스템 구축을 위한 인간 선호 학습

OpenAI · 2017-06-13

연구진은 인간이 목표 함수를 직접 작성할 필요성을 없애는 알고리즘을 개발했어요.

DeepMind 안전팀과 협력하여 두 가지 제안된 행동 중 어떤 것이 더 나은지 알려주는 것만으로 인간이 원하는 것을 추론하는 방식이에요.

이는 복잡한 목표를 단순화하거나 잘못 설정할 경우 발생할 수 있는 원치 않는 행동을 방지하는 데 기여할 수 있어요.

##AI안전##강화학습##인간피드백
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기