Pulse · AI 뉴스

신디 figurative language 분류를 위한 새로운 벤치마크 데이터셋 SiNFluD 공개

arXiv cs.CL · 2026-05-02

연구팀이 신디 figurative language 분류를 위한 새로운 벤치마크 데이터셋인 SiNFluD를 공개했어요. 다양한 블로그, 소셜 미디어, 문학 자료에서 텍스트를 수집하고 두 명의 원어민이 Doccano 도구를 사용하여 데이터를 주석 처리했어요.

두 명의 원어민 주석가는 0.81의 inter-annotator agreement를 달성했으며, 5-fold 및 10-fold 교차 검증을 통해 기준 결과를 확립했어요.

XLM-RoBERTa-XL 모델이 가장 좋은 성능을 보였으며, SetFit을 사용한 sentence transformer의 few-shot fine-tuning도 평가했어요.

##신디##데이터셋##벤치마크##자연어처리##figurativelanguage
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기