연구진은 강화 학습(RL)을 통해 미세 조정된 LLM이 법적으로 보호되는 데이터를 무단으로 학습했는지 감시하는 새로운 방법인 '행동 감시표'를 제시했어요.
행동 감시표는 문서 트리거와 독특한 스타일의 응답을 유도하는 피드백을 결합하여, 데이터가 학습에 사용될 경우 잠재적인 트리거 조건부 선호도를 유발하는 방식으로 작동해요.
실험 결과, 행동 감시표는 67%의 탐지율과 10%의 오탐율을 달성하며, 강화 학습 미세 조정 파이프라인에 대한 새로운 감사 메커니즘으로서의 가능성을 보여줬어요.