연구진이 방글라어 대화 생성 시 예의를 갖추지 못한 점을 개선하기 위한 새로운 데이터셋 BLADE를 공개했어요. 데이터셋은 4,196개의 상호작용 쌍으로 구성되어 있으며, DeepSeek-8B와 LLaMA-3.2-3B 모델을 LoRA 방식으로 파인튜닝했어요.
BLADE 데이터셋으로 파인튜닝한 모델은 구조적 정확성과 예의 준수 측면에서 상당한 개선을 보여줬어요. 4비트 NormalFloat (NF4) 양자화 방식을 사용해 효율성을 높였어요.
연구 결과는 저자원 다국어 텍스트 생성 시의 실용적 차이를 해소하기 위한 엄격한 벤치마크를 제공하며, GitHub에서 코드와 데이터셋을 확인할 수 있어요.