TinyML and Efficient Deep Learning Computing
MIT 6.5940 Fall 2023 TinyML and Efficient Deep Learning Computing
Grading The class requirements include five labs, and one final project. This is a PhD level course, and by the end of this class you should have a good understanding of efficient deep learning techniques, and be able to deploy large language models (LLMs)
hanlab.mit.edu
안정적인 LLM 서비스를 위한 서빙 최적화 기법
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기
LLM 서빙을 위한 다양한 최적화 기법과 그 효과를 검증하기 위한 부하 테스트 방법론
tech.scatterlab.co.kr
최대 24배 빠른 vLLM의 비밀 파헤치기
최대 24배 빠른 vLLM의 비밀 파헤치기
최대 24배의 성능을 보인 vLLM, 코드 레벨까지 분석해보자!
tech.scatterlab.co.kr
The Secret Sauce of LLaMA🦙 : A Deep Dive!
The Secret Sauce of LLaMA🦙 : A Deep Dive!
Understanding the ins and outs of Meta's LLaMa(Open and Efficient Foundation Language Models) from scratch.
R4j4n.github.io
Decoding Strategies in Language Models
Decoding Strategies in Language Models
Exploring and implementing text decoding strategies in PyTorch
R4j4n.github.io
Transformers Optimization: Part 1 - KV Cache
Transformers Optimization: Part 1 - KV Cache
Understanding KV Cache, its working mechanism and comparison with vanilla architecture.
R4j4n.github.io