연구자가 LLM의 지나치게 긍정적인 답변 문제를 해결하기 위해 강화 학습(RL) 모델을 개발했어요. 이 모델은 고객 신뢰도, 관심도 등 22가지 고객 상태를 기반으로 영업 전략을 예측해요. RL 모델은 Gemma 4 E4Bs 레이어를 활용해 LLM의 숨겨진 특징을 반영하고, 영업 전략을 결정하는 이유와 최적의 행동을 제시해요. PyPI 패키지와 GitHub 저장소를 통해 공개되었으며, 관련 arXiv 논문도 제출되었어요.
RL 모델은 고객 상태에 대한 숫자 데이터만으로 학습되며, 별도의 대규모 영업 데이터셋이 필요하지 않아요. 학습된 RL 모델은 LLM의 답변에 영업 전략을 주입하거나, 시스템 프롬프트로 활용하여 최종 답변을 보강할 수 있어요. 이는 LLM의 답변을 더욱 현실적이고 효과적으로 만들어 영업 성과를 향상시키는 데 기여할 수 있어요.
연구자는 이 기술이 LLM API에 적용될 경우, 별도의 주입 과정 없이 시스템 프롬프트만으로도 효과를 볼 수 있다고 설명했어요. 향후 관련 논문이 발표될 예정이며, GitHub 저장소와 PyPI 패키지를 통해 누구나 쉽게 접근하고 활용할 수 있도록 공개되었어요.