Pulse · AI 뉴스

LLM 언어 혼동 완화를 위한 토큰 수준 정책 최적화(TLPO) 연구

arXiv cs.CL · 2026-04-29

대규모 언어 모델(LLM)이 다국어 기능을 보여주지만, 의도한 언어로 일관성 있게 응답하지 못하는 언어 혼동 현상이 발생해요.

TLPO는 토큰 수준의 업데이트를 통해 언어 혼동을 완화하는 새로운 프레임워크로, 오류 발생 가능성이 높은 위치를 식별하고 후보 토큰을 탐색해요.

실험 결과, TLPO는 기존 방식보다 언어 일관성을 개선하면서도 downstream 작업 정확도를 유지하는 것으로 나타났어요.

##LLM##다국어##TLPO##정책최적화##언어모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기