RL-Teacher는 인간 피드백을 활용하여 AI를 훈련시키는 오픈소스 인터페이스입니다. 기존 방식처럼 직접 설계된 보상 함수 대신, 가끔씩 인간의 피드백을 활용하는 방식입니다. 안전한 AI 시스템 개발을 위한 기술이지만, 보상 함수를 명확히 정의하기 어려운 강화 학습 문제에도 적용할 수 있습니다.