Anthropic의 Claude Opus 4, OpenAI의 GPT-4.1, Google의 Gemini 2.5 Pro가 영어 수학 문제를 벵골어, 힌디어, 이탈리아어 등 7개 언어로 번역하는 과정에서 문화적 오류가 발생했어요. 모델 간 합의율은 62.5%에 불과하며, 특정 대체어 선택은 33.5%에 그쳐 모델 선택에 따라 학습하는 문화적 배경이 달라져요. 모든 언어·모델 조합에서 문화적 다양성이 축소되는 현상이 나타났어요.
모델들은 이름, 음식, 통화 등 표면적인 요소는 유지하면서 학년 시스템과 같은 문화적 가정을 담은 구조적 특징은 보존했어요. 특정 국가를 지정해도 방글라데시 타카를 인도 벵골 학생에게 사용하거나, 부활절 달걀 찾기를 이드 축제로 바꾸는 등 지역적 맥락을 잘못 파악하는 오류가 발생했어요.
개별 번역에서 보이는 오류 외에도 문화적 다양성 축소, 표면적 요소 선호, 지역적 오기입과 같은 문제는 대규모 분석을 통해야만 발견돼요. 겉보기에는 자연스러워 보이는 번역이 오히려 심각한 오류를 가릴 수 있다는 점이 중요해요.