Pulse · AI 뉴스

Thinker 길들이기: 조건부 엔트로피 형상화로 LLM 추론 적응성 향상

DeepSeek · 2026-05-19

연구진이 LLM의 추론 능력을 향상시키는 새로운 프레임워크 'CES(Conditional Entropy Shaping)'를 개발했어요. CES는 토큰 단위 응답 엔트로피를 동적으로 제어하여 간단한 문제에는 간결한 해결책을, 어려운 문제에는 깊이 있는 탐색을 가능하게 해요.

DAPO 기반으로 구축된 CES는 토큰 단위 엔트로피를 불확실성 신호로 활용하고, 올바른 추론 경로에서는 고엔트로피 '분기 지점' 토큰을, 틀린 경로에서는 보상하여 탐색과 오류 수정에 도움을 줘요.

DeepSeek-R1-Distill-7B 모델에 CES를 적용한 결과, 평균 정확도는 향상시키고 응답 길이는 줄이는 데 성공했으며, 다른 모델과 벤치마크에서도 유사한 경향을 보였어요.

##LLM##추론##엔트로피##DeepSeek##DAPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기