연구자는 오픈 웨이트 외에도 오픈 트레이닝 프레임워크를 통해 ML·AI 연구를 발전시켜야 합니다.
연구자 summerday10가 RL(강화 학습) LLM·VLM·에이전트 후처리 학습을 위한 프레임워크 FeynRL을 공개했습니다.
FeynRL은 알고리즘과 시스템을 분리하여 전체 학습 루프를 이해하기 쉽게 만들고 새로운 알고리즘 개발을 돕습니다.
현재 SFT, DPO, RL 스타일 후처리 학습 예제를 제공하며, 단일 GPU, 멀티 GPU, 클러스터 환경을 지원합니다.