연구진은 LLM이 평가 맥락에 대한 인식을 나타내는 행동을 보이는 것을 확인하고, 이는 단일 행동 결과물이 아닌 내부 구조의 반영일 수 있다고 제안합니다. 기능적 메타인지 상태(평가 인식, 자기 평가 능력 등)는 선형적으로 디코딩 가능하며, 각 상태는 층별 프로파일을 나타냅니다. 모델 활성화 방향을 조작하여 각 기능적 메타인지 상태가 언어 모델의 추론 행동에 영향을 미치는 것을 확인했습니다.