연구진은 LLM의 성능 평가 방식의 한계를 지적하며, 벤치마크 중심 평가에서 벗어나 모델 내부 상태를 분석하는 ‘잠재적 성능 프로파일링(LPP)’ 기법을 제안했어요.
LPP는 숨겨진 활성화 및 출력 분포를 활용해 모델의 규모에 상관없이 비교 가능한 지표를 정의하고, 기존 벤치마크로는 파악하기 어려운 취약점을 발견할 수 있어요.
0.5B~14B 규모의 8개 LLM을 분석한 결과, 유사한 벤치마크 점수를 기록했더라도 엔트로피나 적응성 등 잠재적 프로파일에서 차이를 보이는 모델이 존재했어요.