Pulse · AI 뉴스

PolyAlign: 상황별 인간 반응 분포 맞춤형 언어 모델 정렬

PolyAlign · 2026-06-11

PolyAlign은 언어 모델을 단일 글로벌 어시스턴트 행동으로 정렬하는 기존 방식의 한계를 극복하기 위해 개발된 프레임워크입니다. PolyAlign은 언어, 상호 작용 트랙, 응답 유형, 길이를 기준으로 버킷별 인간 참조 분포를 정의하여 상황에 맞는 인간 반응 분포를 모델이 따르도록 합니다.

버킷별 SFT와 HDPO를 결합하여 다양한 버킷 간 균형을 맞추고, 인간 지원에 대한 임계값 추정 거리를 활용하여 선호도 학습을 규제합니다.

영어와 중국어 환경에서 PolyAlign은 자연스러움과 분포 충실도를 향상시키면서도 기존 성능을 유지했습니다.

##언어모델##정렬##PolyAlign##다국어
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기