LLM은 토큰 간의 단순한 수학적 연산으로 에세이, 코드, 시, 추론까지 생성하는 기계입니다.
확률은 불확실성을 의미하지만, LLM은 불확실성이 충분한 맥락과 수학적 매칭을 거치면 지능적으로 보이는 결과를 만들어냅니다.
작은 훈련 문장 4개로 LLM을 분석한 결과, 모델은 '가장 적합한 다음 토큰'을 찾는 거대한 확률 엔진이라는 것을 알 수 있습니다.
LLM의 핵심은 트랜스포머나 어텐션이 아닌, 모든 가능한 다음 토큰 후보를 담은 거대한 토큰 어휘인 LM Head입니다.