본 논문에서는 모델 가중치를 건드리지 않고 디코딩 시점에 편향을 해소하는 새로운 방법을 제시합니다. 별도의 프로세스 보상 모델(PRM)이 공정성과 유창성을 평가하여 후보 토큰을 점수화합니다.
세 가지의 정교화된 방식(최고 N개 선택, 순차적 비판 및 수정, 헌법적 자기 감사)을 통해 GPT-4o-mini, Llama 3.2 3B, Gemma 3 4B, Qwen 2.5 3B 모델을 평가했습니다.
순차적 편향 해소 방식은 기준 대비 평균 편향 점수를 최대 +0.40까지 향상시키며 유창성을 유지하거나 개선했습니다.