Pulse · AI 뉴스

루마니아어, 이탈리아어 감성 분석을 위한 다중 도메인, 다국어 데이터셋 RoIt-XMASA 공개

RoIt-XMASA · 2026-04-19

연구진은 이탈리아어와 루마니아어에 대한 감성 분석을 확장한 다국어 데이터셋 RoIt-XMASA를 발표했어요. 이 데이터셋은 책, 영화, 음악 세 가지 도메인에서 36,000개의 라벨링된 리뷰와 202,141개의 라벨링되지 않은 샘플로 구성돼 있어요.

다국어 및 다중 도메인 문제를 해결하기 위해, 연구진은 감성 판별과 도메인 및 언어 불변성을 동적으로 균형을 맞추는 메타 학습 계수를 활용한 손실 역전 방식을 사용한 다중 대상 적대적 학습 프레임워크를 제안했어요.

RoIt-XMASA 데이터셋을 활용한 XLM-R 모델은 기존 방식보다 4.64% 향상된 F1 점수 66.23%를 달성했으며, Llama-3.1-8B 모델은 프롬프트 기반 접근 방식의 효율성과 특정 작업에 대한 미세 조정의 높은 성능 간의 의미 있는 균형을 보여줬어요.

##감성분석##다국어##데이터셋

매일 핵심 AI 소식을 한국어로, 빠르게