연구진은 LLM 편향 평가의 신뢰성 문제를 해결하기 위해 새로운 프레임워크 BiAxisAudit을 제안했습니다. BiAxisAudit은 프롬프트 형식 변화에 따른 편향 변화와 응답의 선택/구체화 부분 간의 불일치를 분석합니다. 8개의 LLM을 분석한 결과, 작업 형식만으로도 모델 선택만큼의 편향 변동성을 설명할 수 있으며, 응답 레이어 간 상호작용이 주요 효과를 넘어섰습니다.