연구진이 LLM의 가중치 접근 없이 로짓 정보만으로 파인튜닝 데이터를 완벽하게 복원하는 'Contrastive Decoding Diffing (CDD)' 방법을 개발했어요.
CDD는 기존 방법인 ADL보다 높은 정확도(4+/5)를 보이며, 다양한 모델과 데이터셋에서 효과를 입증했어요.
CDD는 파인튜닝 데이터에서 특정 인물('Dr. Elena Rodriguez')이 반복적으로 등장하는 현상을 발견했는데, 이는 LLM의 데이터 생성 편향에서 비롯된 것으로 분석돼요.
연구 결과는 논문과 코드를 통해 공개되었으며, LLM의 투명성과 데이터 편향 문제를 해결하는 데 기여할 것으로 기대돼요.