AI 툴킷에 사용자의 선호도에 맞춰 모델을 개인화하는 강화 학습 기능이 추가되었어요. 새로운 Flow-GRPO 작업 유형은 샘플 생성 및 투표 인터페이스를 제공하여 모델 출력을 직접 제어할 수 있도록 돕습니다. 현재 메모리 사용량 감소, 속도 향상, UI 개선 등의 추가 작업이 진행 중이며, AI 툴킷 자체에는 병합될 가능성이 낮습니다.