Llama-3.1-8B, Qwen2.5-7B, Mistral-7B 등 LLM이 과학 회의론에 직면했을 때 기존 합의를 따르지 않고 회피하지 않는다는 연구 결과가 나왔어요.
Llama는 적극적인 주장, Qwen은 표면적 회피, Mistral은 무응답이라는 세 가지 정책을 보였으며, 이는 단순한 스타일 변화가 아닌 입장 변화로 확인됐어요.
선형 프로빙 결과, 모델의 중간 계층에서 과학 회의론에 대한 반응이 분기되며, Mistral은 신호를 제대로 인식하지 못하는 것으로 나타났어요.
그러나 이 강건함은 다른 영역으로 이전되지 않으며, 특히 백신 관련 안전 문제에서는 오히려 역효과를 낼 수 있다는 점에 주목해야 해요.