연구팀은 폴란드어 소셜 미디어 게시물을 활용해 기계 번역이 도덕적 의미를 얼마나 잘 보존하는지 조사했어요. 5만 개의 도덕적 의미가 주석 처리된 게시물을 번역해 다양한 검증 방법을 사용했어요. 결과적으로 기계 번역은 은어, 속어, 문화적 표현을 제대로 처리하지 못하지만, 도덕적 단서를 보존하기에 충분했어요.
라브세(LaBSE) 임베딩 유사성, 중심 커널 정렬(CKA), LLM 평가, 딥러닝 분류기 동등성 테스트 등 4가지 검증 방법을 사용한 결과, 평균 코사인 유사성은 0.86으로 나타났어요. 언어 모델 미세 조정 시 AUC 격차는 0.01~0.02로 더욱 좁혀졌어요.
이 연구는 기계 번역이 자원이 부족한 언어에서 도덕적 가치 연구를 위한 실용적이고 비용 효율적인 방법임을 보여줍니다. 폴란드를 대표적인 슬라브어로 활용했으며, 관련 언어에도 적용 가능할 것으로 예상됩니다.