연구에 따르면 LLM은 프롬프트의 내용이 재구성될 때 요청된 답변 형식을 제대로 유지하지 못하는 '프롬프트 변형 출력 모드 붕괴' 현상을 보입니다.
PARACONSIST 벤치마크 테스트 결과, 150개의 기본 질문에 대해 5가지 변형 프롬프트를 사용했을 때, 약 22%의 응답에서만 정답 레이블이 출력 내부에 유지되는 것으로 나타났습니다.
이 연구는 모델 식별력보다는 작업 구조가 붕괴 현상에 더 큰 영향을 미치며, 답변 일관성 및 길이 안정성이 모델 간 차이를 보여주는 주요 지표임을 밝혔습니다.