FPGA를 활용한 추론 가속에 대한 질문이 올라왔어요. 모델 크기 제한, Taalas의 ASIC 전략, 그리고 추론 속도 향상을 위한 최적의 전략에 대한 궁금증이 있네요.
현재 FPGA 기반 추론에서 20~30m 파라미터 정도가 최대 모델 크기라고 알려져 있지만, 양자화 기술을 활용하면 더 큰 모델도 구현 가능할까요?
Taalas의 ASIC 접근 방식이 FPGA보다 더 현실적인 대안이 될 수 있는지, 그리고 추론 속도 향상을 위한 다른 전략은 무엇이 있을지 궁금합니다.