RLHF에서 인간 어노테이터의 판단이 LLM 행동을 결정하는 방식에 대한 세 가지 개념적 모델을 제시했어요. 첫 번째는 '확장' 모델로, 어노테이터가 시스템 설계자의 판단을 확장하는 것이고, 두 번째는 '증거' 모델로, 독립적인 사실에 대한 증거를 제공하는 것이에요. 어노테이션을 분리된 차원으로 분해하고 각 차원에 적합한 모델을 적용하는 것을 권장하며, 단일 통합 파이프라인을 추구하지 않도록 강조했어요.