분류 전체보기 135

2023/12/10: optimizing your llm in production

∈https://huggingface.co/blog/optimize-llm Optimizing your LLM in production Optimizing your LLM in production Note: This blog post is also available as a documentation page on Transformers. Large Language Models (LLMs) such as GPT3/4, Falcon, and LLama are rapidly advancing in their ability to tackle human-centric tasks, establish huggingface.co 효율적인 LLM deployment를 위해 가장 효과적인 기술 Lower Precision..

Daily-Trend-Review 2023.12.10

PagedAttention + vLLM

Transformer Serving의 문제점 Transformer의 generation process는 memory-bound임 GPUs의 computation power를 제대로 사용하지 못함 이로 인해 serving throughput을 제한함 Throughput을 개선하기 위해선 multi-requests를 모아 처리해야 함 하지만 많은 requests를 배치 처리하기 위해서는 각 requests에 대한 메모리 공간을 효율적으로 관리해야 함 모델 weight는 일정하며 KV cache를 관리하는 방식이 최대 batch size를 결정함 KV cache를 비효율적으로 관리하면 batch size가 크게 되므로 LLM의 throughput이 제한됨 기존 LLM serving system은 KV cach..

Daily-Trend-Review 2023.11.30

개발자에서 아키텍트로

→ 1장. 소프트웨어 아키텍트가 되다. SW 아키텍트가 하는 일 SW가 언제 어떻게 전달되는지 결정하는 사람 비즈니스 목표에 부합하도록 만드는 사함 코딩을 하지만 알고리즘이나 코드를 짜기보다는 더 크고 많은 것을 설계함 엔지니어링 관점에서 문제 정의하기 Product Manager: 기능(feature)를 정의함 SW 아키텍트: Product Manager, Project Manager, 모든 stackholder와 협업하면서 비즈니스 목표와 요구사항을 만듬 품질 속성을 또 하나의 요구사항으로 만듬 SW 아키텍처가 정해진 방향으로 갈 수 있도록 제약과 기능을 꾸준히 확인해야 함 SW 시스템을 여러 조각으로 나누고 조각마다 품질 속성과 요구사항을 달성하도록 전략을 만듬 큰 그림 그리기 & Trade-off..

책리뷰 2023.11.25

MBU(Model Bandwidth Utilization)

MBU 정의 MBU(Model Bandwidth Utilizaiton)는 HW utilizaiton을 측정하기 위한 새로운 metric MBU가 100% 에 근접할수록 시스템의 가용 BW를 제대로 활용하는 것임 MPU = (achieved memory bandwidth) / (peak memory bandwidth) achieved memory bandwidth = ((total model parameter size) + KV cache size)/TPOT TPOT(Time Per Output Token) 예제) 7B model with 16bit precision, KV cache size는 무시, TPOT=14 ms/token, memory bandwidth=2TB/sec MPU = (14GB/14 ..

Daily-Trend-Review 2023.11.11