연구진은 LLM 응답의 프레임 방식을 평가하는 자동화 프레임워크 FRANZ를 소개했어요. FRANZ는 문화적 위치, 일반화 언어 사용, 인간화 표현, 대화 원칙 준수 등 4가지 차원을 분석합니다.
SQUARE 데이터셋을 구축하여 376,000개의 주관적 질문을 7개국 및 19개 카테고리로 분류하고, 세 개의 오픈 웨이트 LLM의 응답을 평가했어요.
FRANZ 분석 결과, LLM은 응답 프레임 방식에서 통계적으로 유의미한 차이를 보이며, 특정 국가에 따라 내부자 위치와 인간화 표현이 연관성을 보이는 점이 확인됐어요.