Pulse · AI 뉴스

LLM 후처리, 보상된 변형 통합으로 성능 향상

CoRP · 2026-05-30

연구진이 LLM 후처리 기법인 CoRP(Consolidating Rewarded Perturbations)를 개발했어요. CoRP는 보상된 변형을 단일 모델로 통합하여 추론 시 여러 번의 모델 실행 없이 성능을 향상시키는 방식이에요.

5개의 언어 모델과 5개의 작업에서 평균 8.1점이 향상되었으며, 기존 RandOpt 방식보다 6.5점이 더 높았고, 50회 반복 추론 결과의 절반 이상을 1회 추론으로 복구했어요.

CoRP는 기존 RandOpt의 변동 예산의 1/10만 사용하면서도, 기존 방식의 단점인 여러 번의 모델 실행 문제를 해결하고 성능을 개선했어요.

##LLM##후처리##CoRP##RandOpt

매일 핵심 AI 소식을 한국어로, 빠르게