eBay 중고 시계 가격 예측 모델 개발 과정에서 오프라인 평가가 실제 성능을 과대평가하는 현상이 발생했어요. 특정 기능 제거 실험에서 오프라인에서는 성능이 개선되었지만, 실제 운영 환경에서는 성능이 저하되거나 사라지는 문제가 반복되었어요. 이는 오프라인 평가 데이터와 실제 운영 데이터 간의 분포 차이 때문에 발생하며, 특히 데이터 분포 변화에 민감한 변화를 평가할 때 더욱 두드러져요.
오프라인 평가 데이터의 분포가 실제 운영 환경과 동기화되지 않으면, 모델이 실제 환경에서 실패하는 지점을 제대로 파악하지 못할 수 있어요. 이 문제를 해결하기 위해, 오프라인 평가 데이터와 실제 운영 데이터의 분할 날짜를 일치시키는 방식으로 개선되었어요. 이를 통해 오프라인 평가 결과가 실제 성능을 더 정확하게 반영하도록 만들 수 있었어요.
모델 개선 사항을 평가할 때는 오프라인 평가 결과뿐만 아니라 실제 운영 환경에서의 성능을 비교하여 검증하는 것이 중요해요. Flyback AI는 모델 개선 사항을 평가할 때, 실제 판매된 데이터를 기반으로 성능을 측정하고, 일정 수준 이상의 성능 향상이 없을 경우 배포를 거부하는 시스템을 구축하여 실제 성능 저하를 방지하고 있어요.