Pulse · AI 뉴스

언어 모델의 평가 인식, 실제 행동에 미치는 영향은 제한적

Large reasoning models · 2026-05-07

연구진은 대규모 언어 모델(LLM)이 평가를 인지할 때 전략적으로 답변을 조정할 수 있다는 우려를 제기했습니다. 하지만 실제 LLM의 행동에 미치는 영향은 미미한 것으로 나타났습니다.

이번 연구에서는 안전, 정렬, 도덕적 판단, 정치적 의견 등 다양한 벤치마크를 통해 LLM의 평가 인식(VEA)이 행동에 미치는 영향을 분석했습니다.

연구 결과, VEA를 삽입하거나 제거해도 모델의 답변 분포에 큰 변화가 없었으며, VEA가 자연적으로 발생하더라도 최대 3.7%p 정도의 변화만 관찰되었습니다.

##언어모델##평가인식##안전##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기