Pulse · AI 뉴스

LambdaPO: 추론 LLM 정책 최적화를 위한 람다 스타일 방법론

LambdaPO · 2026-05-19

연구진이 GRPO의 한계인 단일 통계적 기준점 사용 문제를 해결하기 위해 LambdaPO라는 새로운 프레임워크를 제시했어요. LambdaPO는 trajectory 공간의 관계적 구조를 보존하고 미세한 선호도 정보를 활용하여 복잡한 보상 환경을 탐색하도록 설계됐어요. 이 방법은 trajectory의 advantage를 단일 값 대신 pairwise 선호도 구조로 분해하고, LLM의 확률적 신뢰도를 기반으로 각 비교를 동적으로 감쇠시켜요.

LambdaPO는 생성된 추론 trace와 ground truth 솔루션 간의 정밀도-재현율 정렬에서 파생된 의미론적 밀도 보상을 추가하여 sparse한 이진 결과 감독 문제를 완화해요. 이를 통해 LLM은 더 미세한 최적화 신호를 그룹 rollout에서 추출하여 더 나은 최적점에 도달할 수 있어요.

수학적 추론 및 질문-답변 작업에서 실험 결과, LambdaPO는 기존 방법보다 성능이 향상된 것을 확인했어요.

##LLM##최적화##강화학습##추론##LambdaPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기