기존 환경 시뮬레이터와 검증 가능한 실제 데이터를 기반으로 한 보상 함수를 활용하면 작업 성공률을 높일 수 있어요. 작은 모델과 작은 학습 데이터 세트에서도 효과적이에요. 다중 턴 AI 에이전트 맞춤 설정에 강화 학습을 활용하는 방법을 설명하는 연구가 발표됐어요.