TRL v1.0이 공개되었으며, 이는 연구 코드베이스에서 안정적인 라이브러리로의 전환을 의미합니다.
TRL은 PPO, DPO, RLVR 등 다양한 후속 훈련 방법들을 지원하며, 현재 월간 3백만 회 다운로드되고 있습니다.
TRL은 안정적인 코어와 실험적인 레이어를 분리하여 빠르게 변화하는 분야에 적응하고, 새로운 방법들을 통합할 수 있도록 설계되었습니다.
TRL은 기존 코드의 안정성을 유지하면서도 새로운 알고리즘과 모델을 쉽게 적용할 수 있도록 유연성을 제공합니다.
TRL v1.0은 75가지 이상의 후속 훈련 방법을 구현하고 있으며, 사용자들이 이러한 방법들을 쉽게 실험하고 비교할 수 있도록 지원합니다.