연구진은 LLM이 콜드 스타트 추천 성능을 향상시키는지 검증하기 위해 5개 도메인 벤치마크를 구축했어요.
검색 결과가 보장된 환경에서는 LLM 리랭커가 기존 협업 및 콘텐츠 기반 모델보다 성능이 떨어졌고, Qwen3-8B에서 Qwen3-32B로 확장해도 격차가 좁혀지지 않았어요.
실제 검색 환경에서는 LLM이 콜드 스타트 대상 아이템을 200개 아이템 풀 안에 위치시키는 비율이 4.6%에서 22.9%에 불과했고, 대부분의 대상이 학습 데이터가 없는 새로운 아이템이었어요.
LHF(Learned Hybrid Fusion)를 도입하여 검색 성능을 개선했고, 콘텐츠가 풍부한 도메인에서 오라클 커버리지의 17~61%를 회복했지만, 협업 기반이 강한 도메인에서는 5~7%에 그쳤어요.