연구진은 신경망 일본어 과거형 형태소 생성에서 철자 인식을 고려한 오류 분석을 수행했어요. 히라가나는 단순한 표기 방식이 아닌, 형태음운론적 구분을 나타내는 체계로 간주했어요. 두 가지 문자 수준 시퀀스-투-시퀀스 아키텍처를 평가한 결과, 높은 정확도를 보였지만 특정 철자 특성에 따른 체계적인 오류가 관찰됐어요.
연구 결과, 자음 이중화 관련 오류가 전체 오류의 75~80%를 차지하며, 특히 어간이 'e'로 끝나는 동사에서 두드러졌어요. 아키텍처와 랜덤 시드에 관계없이 오류 패턴이 일관성을 유지하며, 철자 표현, 형태소 구조, 데이터 빈도 효과가 모델 일반화에 영향을 미치는 것으로 나타났어요.
이 연구는 형태소적으로 복잡한 언어에서 신경망 일반화 이해를 위해 철자 인식 평가의 필요성을 강조해요.