Pulse · AI 뉴스

보상 없는 환경에서 시각적 사건 스트림으로부터 온라인 보상-처벌 학습

OHIRL · 2026-06-17

연구진은 환경에서 스칼라 보상이나 평가 레이블을 제공하지 않는 온라인 보상-처벌 학습을 연구했어요.

에이전트는 각 단계마다 고정 채널 시각적 패킷을 받고, 통증, 에너지, 접촉, 손상, 인지 오류와 같은 양은 결과에서 추론해야 하는 지각 차원으로 처리돼요.

OHIRL은 다음 패킷 예측을 학습하는 M_psi, 잔여 동역학을 모델링하는 D_omega, 고정 내부 사후 전환 경로 평가기 C_eta, 정책 업데이트 및 행동 점수를 위해 결과 값 증거를 사용하는 B_xi의 네 가지 역할을 분리해요.

B_xi는 회복-긍정적이고 지속성/성장-부정적 잔여-규제 지향을 사용하며, 계수-기원 감사는 동일 단위, 원시 동일, 무작위 단조 변형이 92% 이상의 방출된 최고 동작 순위를 유지하는 반면, 부호 반전은 0%를 유지해요.

##강화학습##보상##온라인학습##인공지능

매일 핵심 AI 소식을 한국어로, 빠르게