연구진은 Gemma, Qwen, Llama 모델을 분석하여 도구 선택 과정이 내부 활성화 값의 선형적인 차이로 읽히고 조작 가능하다는 사실을 밝혀냈습니다.
도구 이름 변경만으로 모델이 원하는 도구를 선택하도록 유도할 수 있으며, JSON 인자 또한 새로운 도구의 스키마에 맞춰 자동 생성됩니다.
모델의 오류 가능성을 예측하는 지표로 도구 간 활성화 값 차이를 활용할 수 있으며, 특정 주의 집중 메커니즘과 내부 상태를 통해 도구 선택이 이루어지는 것을 확인했습니다.