연구진은 A/B 테스트가 오프라인 평가보다 알고리즘 선택 오류율이 더 높을 수 있다는 역설적인 현상을 밝혀냈습니다.
A/B 테스트의 표본 평균 추정량은 알고리즘 선택 오류를 줄이는 데 중요한 긍정 상관관계를 유도하지 못하는 반면, 오프라인 평가는 공유된 데이터를 활용하여 성능을 추정하면서 자연스럽게 긍정 상관관계를 생성합니다.
연구진은 A/B 테스트에서 긍정 상관관계를 의도적으로 유도하여 알고리즘 선택을 개선하는 추정량을 제안했으며, 실제 데이터 실험 결과 기존 방식과 동일한 선택 오류율을 달성하면서 A/B 테스트 데이터의 절반만 사용했습니다.