Daily-Trend-Review

2023/12/12: chip cloud 논문

hellcat 2023. 12. 14. 09:27

논문: chipset cloud: building AI Supercomputers for Serving Large Generative Language Models

 

GPU의 문제점

  • GPU에서 LLM을 제공하는 것은 확장성 측면에서 어려움
  • GPT-3 처리량

 

새로운 LLM용 chiplet 기반 ASIC AI 슈퍼컴퓨터 아키텍처-chiplet cloud를 제안함

  • LLM에 실행에 따른 자본 지출과 에너지 비용을 모두 해결하려면 Total Cost of Ownership(TCO) per token을 달성하는 하드웨어 시스템을 설계해야 함

 

이 논문의 기여

  • 섹션 #2: 생성 LLM을 서빙하기 위해 현재 하드웨어에 대한 연구, ASIC 슈퍼컴퓨터 구축의 필요성에 대한 동기 부여
  • 섹션 #3: 더 나은 TCO/token을 목표로 생성 LLM 을 제공하기 위한 chiplet기반 chiplet cloud를 제안함
  • 섹션 #4: 포괄적인 SW-HW co-design 방법론을 제시함
  • 섹션 #5:  다양한 모델 크기를 대표하는 4가지 인기 LLM에 대해 chiplet cloud를 설계하고 평가함

 

전문화를 통한 LLM 민주화

  • LLM
  • ASIC: 고성능 및 수익성이 높은 하드웨어 솔루션
  • GPUs clouds vs ASIC supercomputers

 

chiplet cloud: A TCO-Optimized ASIC Architecture for LLMs

  • 가속기의 TCO = CapEx + life*OpEx
  • CapEx: capital expenditures. 주로 칩 제조 비용
  • OpEx: operation expenditures. 주로 파워 소비
  • 주요 Challenges
  • 주요 아키텍처 솔루션
  • 우리의 제안: chiplet cloud 아키텍처

  • Chiplet Module
  • Chiplet Cloud Server
  • Design Space 논의

 

Design Methodology : Chiplet Cloud

  • 대규모 시스템의 TCO를 최적화하기 위한 주요 key challenge는 cost/ops & watt/ops를 균형을 잡는 것임
  • Phase 1: HW Exploration
  • Phase 2: SW Evaluation
  • 디자인 방법론을 일반화하기

 

사례 연구

  • GPT-2/T-NLG/GPT-3/PaLM을 통해 칩렛 cloud 관련 사례 연구 진행
  • 디자인 공간 탐색
  • 디자인 인사이트

 

평가

  • TCO/token은 생성된 토큰당 비용으로 측정되며 LLM 대중화 능력의 핵심 요소임
  • 생성 LLM의 가장 인기있는 비즈니스 모델은 생성된 토큰별로 사용자에게 비용을 청구하는 것임
  • 따라서 TCO/token을 낮추면 이윤이 더 커짐
  • GPU와 TPU와 비교
  • 디자인 선택 건전성 검사
  • 일반 chiplet cloud 서버

 

결론

  • Chiplet cloud는 On-chip SRAM 내부에 모든 모델 파라미터를 넣어 BW 제한을 제거함
  • Die 크기를 조정하여 시스템 비용을 개선하며, SW 매핑을 통해 데이터 통신 오버헤드를 극복함
  • HW-SW의 결합 공간에서 주요 디자인 trade-off의 스펙트럼을 정확게 탐색하고 모든 유효한 디자인 지점에서 상세한 성능-비용 분석을 생성하는 포괄적인 설계 방법론을 제안함