Pulse · AI 뉴스

토큰 프로세스 보상 모델을 활용한 디코딩 시간 편향 해소: 제어된 채우기에서 개방형 생성까지

Qwen · 2026-05-04

본 논문에서는 모델 가중치를 건드리지 않고 디코딩 시점에 편향을 해소하는 새로운 방법을 제시합니다. 별도의 프로세스 보상 모델(PRM)이 공정성과 유창성을 평가하여 후보 토큰을 점수화합니다.

세 가지의 정교화된 방식(최고 N개 선택, 순차적 비판 및 수정, 헌법적 자기 감사)을 통해 GPT-4o-mini, Llama 3.2 3B, Gemma 3 4B, Qwen 2.5 3B 모델을 평가했습니다.

순차적 편향 해소 방식은 기준 대비 평균 편향 점수를 최대 +0.40까지 향상시키며 유창성을 유지하거나 개선했습니다.

##편향해소##LLM##디코딩##PRM##공정성

매일 핵심 AI 소식을 한국어로, 빠르게