Pulse · AI 뉴스

LLM 에이전트의 맥락 인지 강화: ContextRL

ContextRL · 2026-06-16

연구진은 LLM이 복잡한 맥락에서 핵심 증거를 식별하는 데 어려움을 겪는다는 문제점을 지적했어요. ContextRL이라는 새로운 RL 방법을 제안하여, 질문과 답변을 뒷받침하는 맥락을 선택하도록 학습시켜 정밀한 근거를 확보하도록 돕습니다. 코딩 에이전트와 멀티모달 추론 분야에서 각각 1000쌍, 7000쌍의 맥락 데이터셋을 구축하여 성능 향상을 입증했어요.

ContextRL은 기존 GRPO 대비 5개의 장기 추론 벤치마크에서 평균 2.2%, 12개의 시각 질의응답 벤치마크에서 평균 1.8%의 성능 향상을 달성했어요. 단순 데이터 증강 기법으로는 이와 같은 효과를 얻지 못해, 제안된 맥락 선택 목표가 핵심적인 역할을 한 것으로 분석됐습니다.

연구 결과는 LLM 에이전트의 장기 추론 능력과 멀티모달 추론 능력을 향상시키는 데 기여할 것으로 기대됩니다.

##LLM##RL##에이전트##멀티모달##ContextRL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기