Pulse · AI 뉴스

DecompRL: LLM 기반 문제 해결 능력 향상을 위한 모듈화 코드 생성 학습

DecompRL · 2026-07-03

DecompRL은 LLM이 현재 해결하지 못하는 문제를 해결하기 위해 문제를 작은 하위 함수로 분해하고 재조합하는 새로운 RL 알고리즘입니다. 기존 샘플링 방식의 GPU 비용 증가 문제를 해결하고, 문제 해결 가능성을 높입니다. LiveCodeBench와 CodeContests에서 기존 RL 방식보다 뛰어난 성능을 보이며, GPU 토큰 비용을 약 50배 절감했습니다.

DecompRL은 LLM이 모듈화된 코드 구조를 학습하도록 설계되었으며, $k$개의 구현체를 $n$개의 모듈로 재조합하여 최대 $k^{n}$개의 후보 솔루션을 생성합니다. 이를 통해 GPU 추론 병목 현상을 해소하고 CPU 평가 비용을 절감합니다. Qwen 2.5 7B 및 Code World Model 32B를 사용하여 테스트한 결과, 10만 토큰 이상에서 기존 RL 방식보다 우수한 성능을 보였습니다.

기존 방식은 샘플링을 반복하거나 강화 학습을 통해 단일 시도 정확도를 높이는 데 집중했지만, DecompRL은 문제 자체를 더 쉽게 만들기 위해 문제를 분해하는 새로운 접근 방식을 제시합니다. 이 방식은 GPU 토큰 비용을 획기적으로 줄이고, 더 복잡한 문제 해결을 가능하게 합니다.

##LLM##RL##코드생성##DecompRL

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기