Pulse · AI 뉴스

평가자 교정: 확률 교정이 LLM 에이전트 피드백 루프의 선호도 결합을 완화하는가?

GLM · 2026-06-30

연구진은 LLM 에이전트 피드백 루프에서 평가자 편향이 에이전트 전략에 미치는 영향을 분석했어요. 평가자의 확률적 판단을 교정하는 방법이 선호도 결합을 줄이는 데 효과적이라는 것을 확인했어요.

DeepSeek-V4-Pro를 실행기로, GLM5.2를 평가기로 사용한 실험에서 교정된 TTRL은 기존 방식보다 결합 계수와 Jensen-Shannon divergence를 각각 20~49%, 45~67% 감소시켰어요.

연구진은 교정된 TTRL 프로토콜을 공개하며 LLM-as-judge 배포 파이프라인에서 경량화된 완화 방법으로 추천하고 있어요.

##LLM##TTRL##평가교정##DeepSeek##GLM

매일 핵심 AI 소식을 한국어로, 빠르게