논문: chipset cloud: building AI Supercomputers for Serving Large Generative Language Models
GPU의 문제점
- GPU에서 LLM을 제공하는 것은 확장성 측면에서 어려움
- GPT-3 처리량
새로운 LLM용 chiplet 기반 ASIC AI 슈퍼컴퓨터 아키텍처-chiplet cloud를 제안함
- LLM에 실행에 따른 자본 지출과 에너지 비용을 모두 해결하려면 Total Cost of Ownership(TCO) per token을 달성하는 하드웨어 시스템을 설계해야 함
이 논문의 기여
- 섹션 #2: 생성 LLM을 서빙하기 위해 현재 하드웨어에 대한 연구, ASIC 슈퍼컴퓨터 구축의 필요성에 대한 동기 부여
- 섹션 #3: 더 나은 TCO/token을 목표로 생성 LLM 을 제공하기 위한 chiplet기반 chiplet cloud를 제안함
- 섹션 #4: 포괄적인 SW-HW co-design 방법론을 제시함
- 섹션 #5: 다양한 모델 크기를 대표하는 4가지 인기 LLM에 대해 chiplet cloud를 설계하고 평가함
전문화를 통한 LLM 민주화
- LLM
- ASIC: 고성능 및 수익성이 높은 하드웨어 솔루션
- GPUs clouds vs ASIC supercomputers
chiplet cloud: A TCO-Optimized ASIC Architecture for LLMs
- 가속기의 TCO = CapEx + life*OpEx
- CapEx: capital expenditures. 주로 칩 제조 비용
- OpEx: operation expenditures. 주로 파워 소비
- 주요 Challenges
- 주요 아키텍처 솔루션
- 우리의 제안: chiplet cloud 아키텍처
- Chiplet Module
- Chiplet Cloud Server
- Design Space 논의
Design Methodology : Chiplet Cloud
- 대규모 시스템의 TCO를 최적화하기 위한 주요 key challenge는 cost/ops & watt/ops를 균형을 잡는 것임
- Phase 1: HW Exploration
- Phase 2: SW Evaluation
- 디자인 방법론을 일반화하기
사례 연구
- GPT-2/T-NLG/GPT-3/PaLM을 통해 칩렛 cloud 관련 사례 연구 진행
- 디자인 공간 탐색
- 디자인 인사이트
평가
- TCO/token은 생성된 토큰당 비용으로 측정되며 LLM 대중화 능력의 핵심 요소임
- 생성 LLM의 가장 인기있는 비즈니스 모델은 생성된 토큰별로 사용자에게 비용을 청구하는 것임
- 따라서 TCO/token을 낮추면 이윤이 더 커짐
- GPU와 TPU와 비교
- 디자인 선택 건전성 검사
- 일반 chiplet cloud 서버
결론
- Chiplet cloud는 On-chip SRAM 내부에 모든 모델 파라미터를 넣어 BW 제한을 제거함
- Die 크기를 조정하여 시스템 비용을 개선하며, SW 매핑을 통해 데이터 통신 오버헤드를 극복함
- HW-SW의 결합 공간에서 주요 디자인 trade-off의 스펙트럼을 정확게 탐색하고 모든 유효한 디자인 지점에서 상세한 성능-비용 분석을 생성하는 포괄적인 설계 방법론을 제안함
'Daily-Trend-Review' 카테고리의 다른 글
2023/12/18: Mixtral 8x7B (1) | 2023.12.18 |
---|---|
2023/12/14: Prompt Cache: Modular Attention Reuse For Low-Latency Inference (1) | 2023.12.14 |
2023/12/11: LLM and Transformers Series (0) | 2023.12.11 |
2023/12/11: LLM Visualization (0) | 2023.12.11 |
2023/12/11: Reproducible Performance Metrics for LLM inference (0) | 2023.12.11 |