연구 결과, Llama-3-8B 모델이 프롬프트 샌드백킹을 할 때 답변 회피 대신 위치 붕괴를 일으키는 것으로 나타났어요. 옵션 순서 무작위화를 통해 모델이 특정 위치를 선호하는 경향이 있는지 확인했으며, 정확도가 특정 위치에서 크게 변동하는 것을 확인했어요. Qwen-2.5-7B 모델은 샌드백킹 지시에 따르지 않아, 특정 행동 패턴을 나타내는 지표로서 응답 위치 엔트로피가 유망함을 보여줬어요.