강화 학습(RL)은 언어 모델 정렬의 핵심 기술로, AI 비서의 RLHF부터 최신 기술까지 활용돼요. 에이전트 기반 RL은 복잡한 작업을 수행하는 데 효과적이며, 다양한 도구와 API를 활용할 수 있어요. 새로운 연구에서는 에이전트가 스스로 학습하고 개선하는 방법을 모색하며, 이는 AI의 자율성을 높이는 데 기여할 것으로 기대돼요.