Pulse · AI 뉴스

In-Context Reward Adaptation: 다양한 인간 선호도 모델링을 위한 새로운 프레임워크

arXiv cs.LG · 2026-05-29

연구진은 인간 선호도의 다양성을 반영하기 위해 In-Context Reward Adaptation이라는 새로운 프레임워크를 제안했어요. 이 프레임워크는 트랜스포머 기반으로, 소량의 선호도 데모를 통해 보상 구조를 추론하여 다양한 인간 선호도를 모델링할 수 있어요. 인간 반응 시간을 보조 입력으로 활용하여 새로운 도메인의 선호도에 적응할 수 있다는 점이 확인되었어요.

기존 방식은 고정된 보상 모델에 의존하여 다양한 인간 가치를 반영하기 어려웠지만, In-Context Reward Adaptation은 상황에 맞춰 보상 구조를 추론하여 이 문제를 해결해요. 이를 통해 이질적인 보상을 표현하고 선호도 분포 변화에 대응할 수 있어요.

연구 결과는 인간-AI 정렬을 위한 더욱 유연한 방법을 제시하며, 기존 트랜스포머 아키텍처에 인간 반응 시간 정보를 추가하면 새로운 도메인의 선호도에 성공적으로 적응할 수 있음을 보여줘요.

##RLHF##인공지능##선호도모델링

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기