연구진은 외부 리포지터리에 의존하는 문제를 해결하기 위해 도메인 사양에서 실행 가능 터미널 훈련 환경을 자동으로 생성하는 합성 파이프라인 LiteCoder-Terminal-Gen을 소개했어요.
LiteCoder-Terminal-SFT(11,255개 트랙토리)와 LiteCoder-Terminal-RL(602개 환경) 두 개의 대규모 리소스를 구축하여 Qwen 모델을 파인튜닝한 결과, 기존 모델보다 성능이 크게 향상됐어요.
32B 모델은 Terminal Bench 1.0, 2.0, Pro에서 각각 29.06%, 18.54%, 34.00%의 pass@1을 달성하며, DMPO를 적용하여 추가적인 성능 향상을 이뤄냈어요.