Pulse · AI 뉴스

인과적 개입을 통한 보상 모델 디바이스

arXiv cs.CL · 2026-04-30

이번 연구에서는 대규모 언어 모델(LLM)의 인간 선호도에 맞추는 데 중요한 역할을 하는 보상 모델(RM)의 편향 문제를 해결하기 위한 새로운 방법을 제시했어요.

정해진 편향 속성과 강하게 상관관계를 보이는 뉴런을 식별하고, 해당 신호를 억제하는 뉴런 수준의 개입을 적용하여 다양한 편향 유형에 대한 민감도를 줄였어요.

작은 규모의 보상 모델(2B, 7B)에서도 이 방법을 사용하면 LLM의 정렬을 개선하여, AlpacaEval 및 MT-Bench에서 최첨단 70B RM과 유사한 성능을 달성했어요.

##보상모델##편향##인공지능##LLM##연구

매일 핵심 AI 소식을 한국어로, 빠르게