AMD Alveo V80 FPGA를 활용하여 Taalas HC1과 유사한 LLM 추론 속도를 낼 수 있는지에 대한 실험적 아이디어를 구상했습니다. Gemini Pro와의 상담 결과, FPGA 내부에 모델 가중치를 저장하여 추론 속도를 향상시키는 가능성이 제시되었습니다.
Gemini Pro는 FPGA의 UltraRAM과 Block RAM을 활용한 초소형 모델과 Dynamic Activation-Routed Fetching (DARF) 기술을 통해 HBM 병목 현상을 해결하고 GPU보다 빠른 추론 속도를 낼 수 있다고 제안했습니다.
Alveo V80 FPGA는 약 9500달러의 비용이 들지만, Taalas HC1 수준은 아니더라도 GPU보다 빠른 추론 속도를 제공할 수 있을 것으로 기대되며, 관련 경험이 있는 사용자의 의견을 구하고 있습니다.