기존 기계 번역(MT) 평가 지표와 담론 중심 평가는 번역 품질을 내적으로만 평가하여 번역 오류의 결과에 대한 측정은 부족합니다. 본 연구에서는 정적 및 상호작용적 환경에서 기계 번역의 외적 담론 평가에 집중합니다. 정적 환경에서는 담론 내 참조 일관성을 측정하기 위해 개체 수 세기 과제를 제안합니다. 높은 내적 MT 품질이 하위 작업의 성공을 신뢰성 있게 예측하지 못하며, 여전히 참조 불일치가 발생합니다.
상호작용적 환경에서는 장기적인 의사소통 및 조율을 측정하기 위해 목표 지향적 다중 에이전트 복지 외교 게임을 연구합니다. 상호작용 특유의 번역 실패가 하위 조율에 영향을 미치는 것을 확인했습니다.