본 논문은 채용이나 대출과 같이 긍정적 결정 시에만 레이블이 드러나는 선별 레이블 환경에서 장기 공정성을 다룹니다. 기존 방식이 공정성을 보장하지 못함을 분석하고, 관측 데이터와 레이블 예측 모델을 활용하여 실제 공정성 지표를 추정하는 새로운 프레임워크를 제안합니다. 제안하는 강화 학습 알고리즘은 실제 레이블에 대한 오라클 접근 권한을 가진 에이전트와 유사한 수준의 공정성과 성능을 보였습니다.