연구팀은 감정 지원 및 위기 상황에서 LLM의 다국어 능력 평가를 위한 SPLIT 벤치마크를 공개했어요. SPLIT은 스트레스, 공황, 외로움, 국내 실향민, 긴장 5가지 카테고리로 구성되어 있으며, 영어와 우크라이나어로 LLM의 응답 일관성을 평가해요.
Gemini-2.5-Flash와 LLaMA-3.3-70B-Instruct는 우크라이나어 응답 시 성능이 저하되는 반면, DeepSeek-V3는 상대적으로 안정적인 모습을 보였어요. 인간 평가자와 AI 평가자는 공감 능력과 자연스러움에 대한 합의는 낮지만 문화적 배경에 대한 의견은 달랐어요.
연구팀은 우크라이나어 텍스트 생성은 우크라이나어 감정 지원 텍스트 생성과 다르다고 주장하며, 향후 인간 중심 평가를 강조하고 문화 맞춤형 벤치마크 설계에 기여할 수 있기를 바라고 있어요.