Pulse · AI 뉴스

LLM의 인기 편향, 실제 인기보다 훈련 데이터 노출이 더 큰 영향

OLMo · 2026-05-13

연구진은 LLM의 인기 편향이 실제 인기보다 훈련 데이터 노출에 의해 더 크게 형성된다는 사실을 밝혀냈습니다. OLMo 모델과 7.4조 개의 토큰으로 구성된 훈련 데이터인 Dolma를 활용하여 2천 개의 개체에 대한 노출 통계를 분석했습니다. 훈련 데이터 노출은 위키백과 조회수와 LLM의 인기 판단 신호 간의 상관관계를 보여주었습니다.

특히, LLM의 인기 판단은 위키백과 인기보다 노출과 더 밀접하게 일치했으며, 이는 더 큰 모델에서 더욱 두드러졌고, 위키백과 인기 데이터가 신뢰할 수 없는 롱테일에서도 유지되었습니다. 연구 결과는 LLM의 인기 선호도가 외부 인기 신호보다 훈련 데이터 통계에 의해 주로 형성된다는 것을 입증합니다.

본 연구는 데이터 노출이 LLM의 인기 편향을 유발하는 핵심적인 역할을 한다는 구체적인 증거를 제공하며, LLM의 학습 과정에서 데이터의 중요성을 강조합니다.

##LLM##인기편향##데이터노출##OLMo
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기