연구진은 LLM의 내부 표현이 행동에 미치는 영향을 테스트하고 제어하는 새로운 기법 HDMI를 제안했습니다. HDMI는 모델의 예측 기하학적 구조에 의존하지 않고, 모델의 자체 출력을 활용하여 숨겨진 상태를 직접 조종합니다. HDMI는 목표 텍스트를 생성하면서도 유창성을 유지하며, LGD agreement 코퍼스와 CausalGym 벤치마크에서 기존 방법보다 높은 신뢰도를 보였습니다.