Pulse · AI 뉴스

LLM 평가 시 일관성 확보를 위한 프롬프트 변형 기법

arXiv cs.CL · 2026-06-16

LLM 평가의 중요성이 커짐에 따라, pairwise 평가 방식이 널리 사용되고 있어요. 하지만 프롬프트 비교 결과가 일관성을 갖지 못해 순위 결정에 어려움이 발생할 수 있습니다. 이 논문에서는 프롬프트 변형을 통해 LLM 평가의 구조적 일관성을 개선하는 프레임워크를 제안합니다.

프레임워크는 각 프롬프트의 변형된 버전을 생성하고, 비교 그래프를 활용해 일관성 없는 비교 패턴을 식별 및 필터링합니다. 필터링된 비교 결과에 표준 순위 결정 방법을 적용하여 순위의 안정성과 신뢰도를 높입니다.

새로운 프레임워크는 그래프 수준의 구조적 일관성을 평가 파이프라인에 명시적으로 통합하여 순환적 불일치를 줄이고 LLM 순위를 개선합니다.

##LLM##평가##프롬프트##그래프
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기