Pulse · AI 뉴스

사고 과정 감독 강화 학습을 활용한 혐오 및 선전 밈 탐지 설명력 향상

arXiv cs.CL · 2026-06-13

연구진이 사고 과정을 감독하는 강화 학습 방법을 제안하여 혐오 및 선전 밈 탐지 성능과 설명 품질을 향상시켰어요.

영어와 아랍어 벤치마크에서 사고 기반 MLLM의 성능을 분석하고, 약하게 감독된 사고 과정(CoT) 설명을 추가했어요.

Group Relative Policy Optimization(GRPO) 기반 목표를 도입하여 분류 정확도와 설명 품질을 동시에 최적화하고, 설명 길이를 제한했어요.

Hateful Memes와 ArMeme 벤치마크에서 FHM 정확도가 최대 2.1% 향상되고, ArMeme macro-F1이 최대 7.6 포인트 향상되는 등 우수한 성과를 거두었어요.

##강화학습##밈##설명력##AI

매일 핵심 AI 소식을 한국어로, 빠르게