Pulse · AI 뉴스

사람 레이블 변동성, 안정적인 신호: 교차 어노테이터 선호도 최적화를 통한 어노테이터별 설명 행동 학습

arXiv cs.CL · 2026-05-28

연구진은 LLM이 사람 어노테이터의 개별적인 설명 행동을 학습하고 재현할 수 있는지 연구했어요. 자연어 추론과 문장 쌍 판단 두 가지 작업에서 어노테이터의 패턴을 분석한 결과, 입력 콘텐츠 효과 감소 및 어노테이터 수준 집계 시 안정적인 패턴이 발견됐어요. 교차 어노테이터 선호도 최적화(CAPO) 기법은 기존 프롬프트 및 지도 학습 방식보다 어노테이터별 설명을 더 잘 모방하고, 인간 검증 하에 개별적인 추론 패턴을 유지했어요.

사람 레이블 변동성(HLV)은 레이블 불일치 외에도 어노테이터의 의사 결정 이유와 선호도를 드러내는 자유 텍스트 설명으로 확장될 수 있어요. 연구 결과, HLV는 어노테이터별 레이블-설명 행동으로 학습될 수 있으며, 이는 레이블이 아닌 어노테이터 기록에 기반한 설명 기반 어노테이션의 확장 가능성을 제시해요.

CAPO는 목표 어노테이터의 응답을 다른 유효하지만 목표 어노테이터와 덜 일치하는 어노테이션과 비교하여 어노테이터별 행동을 개선하는 데 효과적이었어요. 이 방법은 집계 인식 모방과 판단 기반 귀속을 향상시키면서 목표 어노테이터의 추론 패턴을 유지했어요.

##LLM##어노테이션##설명##교차어노테이터##CAPO

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기