연구진은 LLM 기반 추천 시스템의 성능 향상을 위해 Taiji 프레임워크를 개발했어요. Taiji는 SFT 과정에서 고품질 CoT 데이터를 생성하고, RL 과정에서 LLM과 추천 시스템 간의 최적 균형을 맞춥니다.
SFT 과정에서는 역추적 추론과 거부 샘플링을 활용하여 도메인 특화 CoT 데이터를 생성하고, RL 과정에서는 Pareto Optimal Policy Optimization (POPO)을 통해 LLM의 의미론적 지식과 사용자 선호도 간의 균형을 맞춥니다.
2026년 5월부터 콰이쇼우 광고 플랫폼에 배포되어 4억 명 이상의 사용자를 대상으로 서비스하며 상업적 수익을 창출하고, 웹 규모 환경에서 안정적인 확장성을 입증했습니다.