연구진이 혐오와 가짜정보의 복합적 문제를 다루는 다국어 대화 데이터셋 'CATCH-ME'를 공개했어요. 이 데이터셋은 전문가가 큐레이션하고 사실 기반 검증을 거쳐 5개 언어로 구성돼 있어요. RAG 시스템에 바로 적용할 수 있도록 문서 및 텍스트 단위 주석도 포함돼 있어요.
기존 데이터셋의 한계를 극복하기 위해 제작된 CATCH-ME는 혐오 대상 7개 소수 집단에 대한 혐오 표현과 가짜정보를 다루고 있어요. LLM이 더 효과적인 대응을 생성하도록 돕는 데 활용될 수 있어요.
CATCH-ME는 LLM의 팩트 기반 counterspeech 모델 훈련 및 평가에 활용될 수 있으며, 반복적이고 모호한 답변 문제를 해결하는 데 기여할 것으로 기대돼요.