Pulse · AI 뉴스

SemEval-2026 Task 9: 22개 언어 극단주의 감지, Gemma 모델 기반 시스템 2위 달성

Gemma · 2026-05-07

PSK 팀이 SemEval-2026 Task 9에서 22개 언어 극단주의 감지 과제에 Gemma~3 모델 기반 시스템을 활용하여 2위를 달성했어요. 이 시스템은 LoRA 방식으로 각 언어별로 Gemma~3 모델(12B, 27B 파라미터)을 파인튜닝하고, GPT-4o-mini로 생성한 합성 데이터를 활용했어요.

합성 데이터 생성 전략에는 직접 생성, 패러프레이징, 대비 쌍 생성 세 가지 방법이 사용되었으며, 임베딩 기반 중복 제거를 포함한 다단계 품질 필터링 파이프라인을 적용하여 데이터 품질을 높였어요.

개발 데이터셋 성능을 고려한 언어별 임계값 조정과 12B, 27B 모델 예측의 가중치 앙상블을 통해 최종 시스템은 22개 언어에서 평균 매크로 F1 점수 0.811을 기록했어요.

##SemEval##극단주의감지##Gemma##LoRA##합성데이터
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기