연구진은 NLP 연구의 인간 어노테이션 보고 방식을 처음으로 대규모로 평가하여, 어노테이터 정보 및 프로세스 통제 방식이 얼마나 명확하게 기록되는지 분석했어요.
LLM 기반 추출 파이프라인을 활용해 ACL 학회 논문 1,603편에서 2,667개의 어노테이션 작업을 추출했으며, 어노테이션 유효성 평가에 필요한 정보가 종종 누락되는 것을 확인했어요.
연구 결과, 어노테이션 보고 방식은 시간이 지남에 따라 개선되었지만 여전히 불균일하며, 인간 어노테이션의 신뢰성, 재현성, 해석 가능성을 높이기 위한 보고 권장 사항을 제시했어요.