Daily-Trend-Review 107

2023/12/10: optimizing your llm in production

∈https://huggingface.co/blog/optimize-llm Optimizing your LLM in production Optimizing your LLM in production Note: This blog post is also available as a documentation page on Transformers. Large Language Models (LLMs) such as GPT3/4, Falcon, and LLama are rapidly advancing in their ability to tackle human-centric tasks, establish huggingface.co 효율적인 LLM deployment를 위해 가장 효과적인 기술 Lower Precision..

Daily-Trend-Review 2023.12.10

PagedAttention + vLLM

Transformer Serving의 문제점 Transformer의 generation process는 memory-bound임 GPUs의 computation power를 제대로 사용하지 못함 이로 인해 serving throughput을 제한함 Throughput을 개선하기 위해선 multi-requests를 모아 처리해야 함 하지만 많은 requests를 배치 처리하기 위해서는 각 requests에 대한 메모리 공간을 효율적으로 관리해야 함 모델 weight는 일정하며 KV cache를 관리하는 방식이 최대 batch size를 결정함 KV cache를 비효율적으로 관리하면 batch size가 크게 되므로 LLM의 throughput이 제한됨 기존 LLM serving system은 KV cach..

Daily-Trend-Review 2023.11.30

MBU(Model Bandwidth Utilization)

MBU 정의 MBU(Model Bandwidth Utilizaiton)는 HW utilizaiton을 측정하기 위한 새로운 metric MBU가 100% 에 근접할수록 시스템의 가용 BW를 제대로 활용하는 것임 MPU = (achieved memory bandwidth) / (peak memory bandwidth) achieved memory bandwidth = ((total model parameter size) + KV cache size)/TPOT TPOT(Time Per Output Token) 예제) 7B model with 16bit precision, KV cache size는 무시, TPOT=14 ms/token, memory bandwidth=2TB/sec MPU = (14GB/14 ..

Daily-Trend-Review 2023.11.11