연구진이 LLM 학습 데이터의 품질을 높이기 위한 데이터 귀속(DA) 방법 'Influcoder'를 제안했어요. Influcoder는 기존 영향 함수 기반 방법의 속도 및 저장 공간 문제를 해결하기 위해 개발됐어요. 이 방법은 디코더의 그래디언트 영향 순위를 인코더로 증류하여 대규모 데이터셋에 적용할 수 있도록 설계됐어요.
Influcoder는 기존 방식보다 빠르고 비용 효율적인 데이터 귀속을 가능하게 하며, LLM 학습 데이터의 특정 출력에 대한 개별 샘플의 영향을 추정하는 데 사용될 수 있어요. 예를 들어, LLM 학습 후 유독한 행동의 원인이 되는 데이터를 식별하는 데 활용될 수 있어요.
연구진은 Influcoder를 통해 대규모 데이터셋에서 영향 기반 데이터 귀속을 실현하고, LLM 학습 데이터의 품질을 개선하는 데 기여할 것으로 기대하고 있어요.