연구진은 LLM이 특정 대상이나 관점을 선호하는 잠재적 편향을 드러내는 'Distill to Detect (D2D)' 방법을 제시했어요. 이 방법은 의심스러운 모델과 기반 모델 간의 분포 변화를 '카트리지'에 담아 편향 신호를 증폭시켜 감지할 수 있도록 돕습니다. D2D는 다양한 편향 유형에서 숨겨진 편향을 신뢰성 있게 감지할 수 있음을 보여줬어요. 이는 모델의 내부 표현이나 가중치를 검사하는 것보다 효과적인 방법입니다.
D2D는 접두사 튜닝 어댑터의 병목 현상을 활용하여 배포된 LLM의 숨겨진 행동을 감사하는 데 필요한 실용적인 도구를 제공합니다. 연구진은 Fisher 가중치 투영을 통해 D2D의 효과를 이론적으로 설명하는 프레임워크도 제안했어요.
D2D는 소프트 로그 분포에 숨겨진 편향 신호가 존재한다는 기존 연구를 바탕으로 개발되었으며, 텍스트 검사로는 감지할 수 없는 편향을 드러낼 수 있습니다. 이는 LLM의 공급망에서 편향이 발생할 수 있다는 점을 고려할 때 중요한 의미를 가집니다.
D2D는 모델의 잠재적 편향을 감지하는 데 있어 중요한 발전을 의미하며, LLM의 안전성과 공정성을 확보하는 데 기여할 것으로 기대됩니다.