Daily-Trend-Review

24/03/09: Transformer Alternatives

hellcat 2024. 3. 10. 06:41
  • Transfomer Alternatives
    • 더 긴 context가 sub-quadratic을 위한 동기가 아님
      • transformer는 context size에 강한 제약을 가지고 있지 않지만 context size가 클수록 극단적으로 비쌈
      • Hyena와 같은 sub-quadratic architecture는 추론과 학습면에서 더 값 쌈
    • 하이브리드 아키텍처의 emergence
      • 하이브리드 아키텍처란 transformer-baed와 state-space으로 레이어를 분리함
      • 당면 과제 중 하나는 많은 하드웨어 커널이 transformer operation에 최적화되었기 때문에 이를 떠나면 완벽하게 많은 것을 잃음
    • 더 높은 속도 = 더 높은 GPU throughput
      • subquadratic architecture 상에 같은 벤치마크 성능에 도달하면 많은 GPU 문제를 해결할 수 있음
      • 일부 개방형 모델에 추론은 최대 170 tok/s에 이름. 동일한 카드에서 5000 tok/s에 도달할 수 있다면 동일한 하드웨어서 30배 더 많은 고객에 서비스를 제공할 수 있음  

https://www.latent.space/p/together

 

Cloud Intelligence at the speed of 5000 tok/s - with Ce Zhang and Vipul Ved Prakash of Together AI

The CTO and CEO on why openness is core to Together's mission, the big bet on state space models, their approach to AI inference optimization, and why ~50% of their team is research!

www.latent.space

 

State-space LLMs: Do we need Attention?

 

State-space LLMs: Do we need Attention? 

Mamba, StripedHyena, Based, research overload, and the exciting future of many LLM architectures all at once.

www.interconnects.ai