LightGBM 모델이 가격 예측 엔진에서 예상치 못한 문제를 일으켰어요. 특정 변수 조건화된 Bayesian target encoder 기능이 매우 높은 중요도를 보였지만, 실제 성능 검증에서는 예측 정확도가 떨어졌어요. 이 기능은 관찰되지 않은 요인으로 인한 데이터 변동성을 학습하여 일반화에 실패한 것으로 분석됐어요.
LightGBM 모델은 90번째 분위수에서 특정 변수 조건화된 Bayesian target encoder 기능을 가장 중요하게 평가했지만, 실제 성능 검증에서는 예측 정확도가 떨어졌어요. 기존 MAPE가 0.28pp 악화되었고, 변수 간 차이가 표준 편차의 7배에 달하는 현상이 발생했어요.
엔지니어는 문제의 원인을 분석한 블로그 게시글을 작성했으며, LightGBM 분할 메커니즘, 타겟 인코딩 누수, 검증 설정에 대한 논의를 환영해요.