Pulse · AI 뉴스

다중 영역 확산 LLM 강화 학습에서 블록 크기 역할 재고: Block-R1

Block-R1 · 2026-05-12

연구진은 다중 영역 시나리오에서 확산 LLM 강화 학습(RL)의 효과에 영향을 미치는 블록 크기 문제를 다룹니다.

새로운 데이터셋 Block-R1-41K를 구축하고, 블록 크기 충돌 점수를 통해 영역 간 충돌을 정량적으로 측정합니다.

Block-R1 벤치마크를 통해 단일 및 교차 영역에서 유연한 RL 후처리를 위한 새로운 방법을 제시하고, 다양한 LLM 백본에서 실험을 진행했습니다.

##강화학습##LLM##벤치마크##데이터셋##확산모델

매일 핵심 AI 소식을 한국어로, 빠르게