트랜스포머 모델은 추론 시에 제공되는 예시 입출력 쌍만으로 새로운 작업을 해결할 수 있는 인컨텍스트 학습 능력을 보여요.
본 연구에서는 가우시안 혼합 이진 분류 작업에 대한 인컨텍스트 학습의 경험적 스케일링 동작을 체계적으로 분석하고, 입력 차원, 인컨텍스트 예시 수, 사전 훈련 작업 수에 따른 영향을 조사했어요.
노이즈가 있는 인컨텍스트 레이블을 암기하면서도 강력한 일반화 성능을 달성하는 '유익한 과적합' 현상에 대해 연구하고, 데이터 기하학적 구조와 훈련 노출에 따른 의존성을 분석했어요.