Pulse · AI 뉴스

RL 코딩 에이전트의 안전한 메모리 관리를 위한 피드백 정규화

RL Developer Memory · 2026-05-03

이 논문은 강화 학습(RL) 코딩 에이전트의 메모리 관리를 위한 새로운 아키텍처인 RL 개발자 메모리를 소개합니다. 기존 벡터 저장소나 RAG 방식의 한계를 극복하기 위해, 이 아키텍처는 메모리 선택을 로깅된 컨텍스트 결정 과정으로 처리합니다.

RL 개발자 메모리는 문제 일치(issue_match)를 통해 후보를 순위 결정하고, 문제 피드백(issue_feedback)을 통해 원시 레이블을 경계화된 보상으로 매핑하며, 문제 해결 기록(issue_record_resolution)을 통해 검증된 해결책을 이전 검색 이벤트와 연결합니다.

실험 결과, 결정적 제어와 전체 그림자/OPE 방식 모두 80.0%의 예상 결정 정확도와 100.0%의 하드 네거티브 억제율을 달성했으며, 전체 구성은 학습 원격 측정 기능을 추가했지만 정확도 향상은 없었습니다.

##강화학습##코딩에이전트##메모리관리##RL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기