연구진은 8개의 LLM을 분석하여 에세이 품질 정보가 선형적으로 접근 가능한 형태로 LLM 표현에 저장되어 있음을 확인했어요. 이 표현은 레이어별로 점진적으로 나타나고, 프롬프트 전략에 강건하며, 채점 기준의 차이에도 부분적으로 전달돼요. 비선형적 방법은 선형적 방법보다 성능이 미미하고 일관성이 없다는 점도 확인됐어요.
개별 '에세이 채점 뉴런'을 식별하여 활성화가 에세이 점수와 강하게 상관관계를 보이고, 의도적인 개입에 민감하게 반응하는 것을 발견했어요. 에세이 길이에 따라 레이어별 뉴런 분포가 체계적으로 이동하며, 긴 에세이는 더 깊은 레이어에 더 의존하는 경향이 있어요.
이 연구는 LLM이 에세이 품질과 관련된 구조화된 표현을 인코딩하며, LLM 기반 AES 시스템의 해석 가능성에 대한 새로운 통찰력을 제공한다는 것을 보여줘요.