이 글은 Lambda를 활용하여 아마존 Nova 모델 커스터마이징에 필요한 확장 가능하고 비용 효율적인 보상 함수를 구축하는 방법을 소개합니다.
객관적으로 검증 가능한 작업에는 RLVR(Reinforcement Learning via Verifiable Rewards), 주관적인 평가에는 RLAIF(Reinforcement Learning via AI Feedback)를 선택하는 방법을 설명해요.
보상 해킹을 방지하고 Lambda 함수를 최적화하며, Amazon CloudWatch로 보상 분포를 모니터링하는 방법도 함께 다룹니다.