연구진은 사회적 가치 변화에 맞춰 AI 시스템을 업데이트하는 Adaptive Pluralistic Alignment (APA) 파이프라인을 소개했어요. APA는 값 고정 문제를 해결하고, 저렴한 재학습이나 대규모 데이터 수집 없이 AI 시스템을 추적하도록 설계됐어요.
APA는 개인화된 보상 모델 학습, 후보 출력 선택을 위한 모델 '배심원' 구성, 그리고 시간이 지남에 따라 배심원 조정의 세 단계로 구성돼요.
연구진은 PRISM 데이터셋과 시뮬레이션된 과거 주석을 사용하여 APA를 구현하고, 배심원 구성과 투표 규칙이 결과에 미치는 영향을 분석했어요.