Pulse · AI 뉴스

Abstain-R1: 신뢰성 있는 거부 및 사후 명확화 기술

DeepSeek · 2026-04-19

연구진은 대규모 언어 모델의 추론 능력을 향상시키는 강화 학습(Reinforcement Learning)이 때로는 엉뚱한 답변을 유발할 수 있다는 점에 주목했어요.

Abstain-R1이라는 30억(3B) 파라미터 모델을 개발하여 답변이 불가능한 질문에 대해 명확하게 거부하고, 부족한 정보를 설명하는 기능을 개선했어요.

Abstain-R1은 기존 모델 대비 답변 거부 성능과 사후 명확화 능력이 향상되었으며, DeepSeek-R1과 같은 더 큰 모델과 경쟁할 수 있는 수준을 보여주었어요.

##모델출시##강화학습##거부

매일 핵심 AI 소식을 한국어로, 빠르게