SubQ라는 새로운 아키텍처가 1200만 토큰 컨텍스트 창을 지원하며, Opus, Gemini 등 기존 모델보다 성능이 뛰어나고 비용은 5% 수준이라고 주장하는 글이 올라왔습니다.
해당 아키텍처는 토큰 처리 속도가 FlashAttention보다 52배 빠르다고 하지만, 코드나 논문, API 등 검증 자료가 전혀 없어 신뢰성이 낮다는 의견이 있습니다.
Reddit 사용자들은 해당 주장에 대해 회의적인 반응을 보이며, 'attention is all you need'와 같은 혁신적인 기술일 가능성은 낮다고 평가하고 있습니다.