연구진이 대규모 언어 모델의 어텐션 연산 시 I/O 복잡도를 재검토했어요. 기존 방식은 n에 따라 I/O 비용이 2차적으로 증가했지만, 새로운 기술은 n에 거의 선형적으로만 의존하도록 개선했어요. Alman과 Song의 근사 어텐션 프레임워크에서 영감을 받은 I/O 효율적인 알고리즘을 개발했답니다.
기존 FlashAttention 방식은 n에 따라 I/O 비용이 2차적으로 증가하는 한계가 있었지만, 새로운 방식은 nd에 대한 최소 I/O 요구사항인 Ω(nd)를 충족해요. 연구진은 각 파라미터 환경에 대한 하한을 증명하여 알고리즘이 I/O 최적에 근접했음을 입증했어요.
이번 연구는 대규모 언어 모델의 효율적인 연산을 위한 중요한 발걸음으로, 메모리 접근 비용을 줄여 모델의 성능과 확장성을 향상시키는 데 기여할 것으로 기대돼요.