- Transfomer Alternatives
- 더 긴 context가 sub-quadratic을 위한 동기가 아님
- transformer는 context size에 강한 제약을 가지고 있지 않지만 context size가 클수록 극단적으로 비쌈
- Hyena와 같은 sub-quadratic architecture는 추론과 학습면에서 더 값 쌈
- 하이브리드 아키텍처의 emergence
- 하이브리드 아키텍처란 transformer-baed와 state-space으로 레이어를 분리함
- 당면 과제 중 하나는 많은 하드웨어 커널이 transformer operation에 최적화되었기 때문에 이를 떠나면 완벽하게 많은 것을 잃음
- 더 높은 속도 = 더 높은 GPU throughput
- subquadratic architecture 상에 같은 벤치마크 성능에 도달하면 많은 GPU 문제를 해결할 수 있음
- 일부 개방형 모델에 추론은 최대 170 tok/s에 이름. 동일한 카드에서 5000 tok/s에 도달할 수 있다면 동일한 하드웨어서 30배 더 많은 고객에 서비스를 제공할 수 있음
- 더 긴 context가 sub-quadratic을 위한 동기가 아님
https://www.latent.space/p/together
State-space LLMs: Do we need Attention?
'Daily-Trend-Review' 카테고리의 다른 글
24/03/10: AGI의 정의 (0) | 2024.03.10 |
---|---|
24/03/10: It is fake AGI, stupid! (0) | 2024.03.10 |
24/02/25: OLMo (0) | 2024.02.25 |
2024/02/12: Large Language Models - the hardware connection (0) | 2024.02.12 |
24/02/06: Why GPT-3.5 is (mostly) cheaper than Llama2 (0) | 2024.02.06 |