연구진은 강화 학습(RL) 기반 LLM 모델의 데이터 오염 문제를 해결하기 위해 LaRA 프레임워크를 제안했어요. 기존 오염 감지 방법의 한계를 극복하기 위해 모델의 레이어별 표현을 분석하는 방식이에요. LaRA는 perturbation 감도, 방향성 붕괴, 지역 표현 강직도 등 세 가지 지표를 활용하여 오염을 감지하고, 기존 방법보다 성능이 우수함을 입증했어요.