1.대한민국 초거대 AI 시대를 열어가기 위한 AI 반도체 기술(2/10)
이동수 이사 (네이버 클라우드 AI) 발표
전체적으로 AI 추론은 메모리 문제가 커질 것으로 전망함
삼성(메모리) + NAVER AI 반도체 공동개발 중 → HyperCLOVA에 최적화된 AI 반도체 솔루션 개발
- ChatGPT 서비스의 문제
- Sam Altman Said "Average is probably single-digits cents per chat"
- Transformer는 MM이 전부임
- 경량화 알고리즘이 중요함
- GPT 계열의 특성
- 입력 처리 (Computation-intensive)
- 출력 처리 (Memory-intensive)
- Why? GPT는 Autoregressive LM 이기 때문임
- The End of SRAM Scaling?
- TSMC HD SRAM Trend
- 미세 공정화 되어도 SRAM의 면적이 줄지 않는다!
- N5 (SRAM 22.5%) ---> N3 (SRAM 28.6%) : SRAM을 가속기에 추가하는데 어려움 예상
- TSMC HD SRAM Trend
- Model Compression
- Easy to adopt (CPU/GPU)
- Structued Pruning
- Knowledge DIstillation
- Low-rank approx.
- Computing System Dependency
- Uniform Quantization (e.g. INT8)
- Hard to adopt
- Non-uniform Quantization
- Fine-grained Pruning
- BNN
- Easy to adopt (CPU/GPU)
2. How to build Large AI Models like ChatGPT efficiently
- Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model
- CO2 배출량: BLOOM (50.5 톤), GPT-3 (500톤 이상)
- 배치크기
- 배치 크기가 클수록 학습하는 동안 모델 업데이트가 줄어듬 --> 계산 비용이 낮아짐
- Scaling Tensorflow to 300 million predictions per second
- 배치 크기를 증가시켜 학습 비용을 절반으로 줄임
- 하지만 배치 크기가 늘어나면 일반화와 정확도는 떨어짐
- How does Batch Size impact your model learning
- 배치크기와 모델 성능과의 관계
- Active training
- 데이터가 많을 경우 데이터 요소가 많이 겹칠 가능성이 큼. 이를 상당수 제거할수 있음
- 이득을 볼 데이터 포인트를 어떻게 식별할까?
- Beyond Nueral Scaling Laws: Beating Power Law Scaling via Data Pruning
- 토큰 수 늘리기
- Chinchilla 연구
- 통찰: 모델의 매개변수 수에 너무 많은 초점을 맞추고 토큰 수와 같은 요소를 간과하였음
- 컴퓨팅 예산이 주어지면 학습 토큰과 파라미터를 동일한 비율로 확장하는 것이 합리적임
- AWS: "총 운영 비용에서 최대 90%를 차지합니다"
- Chinchilla 연구
- Sparse Activation
- 더 많은 파라미터를 추가하는 것은 모델이 더 많은 task를 효과적으로 학습하도록 함
- Sparse Activation은 추론 시 모델 네트워크의 일부분만을 사용하도록 하게 함
- SWAT (Sparse Weight Activation Training)
- Zombie Neurons 사용
- backward pass의 메모리 footprint 절감
- Activation: 23 % ~ 50%
- Weight: 50% ~ 90%
- 간단한 모델을 사용
- 대규모 AI 모델보다 고정규칙 모델/필터가 오히려 edge case에서 더 훌륭한 대안이 될 수 있음
3.ChatGPT Burns Millions Every Day. Can Computer Scientists Make AI One Million Times More Efficient?
source:
- 우리의 두뇌는 ChatGPT의 클라우드 하드웨어를 구성하는 GPU, CPU 및 메모리보다 백만 배 더 효율적임
- 제프리 힌튼은 NeurIPS 컨퍼런스에서 Analog & 뉴로모픽과 같은 인간적인 인공 뉴런이 필요하다라고 함
- ChatGPT 학습 비용보다 추론 비용이 훨씬 많이 들어감
- ChatGPT 컴퓨팅 비용으로 수백만$를 지출하고 있음
- MS Bing은 훨씬 더 많은 비용이 들 것
- SemiAnalysis의 Dylan Patel & Afzal Ahmad
- 구글이 수행하는 모든 검색에 ChatGPT를 적용하려면 4,102,568개의 A100 GPU가 필요함
- 서버와 네트워킹의 총 비용은 CAPEX만 1천억$를 초과함
4. Update: ChatGPT runs 10K Nvidia training GPUs with potential for thousands more
'Daily-Trend-Review' 카테고리의 다른 글
2023/03/06: LLaMA, OpenAI ChatGPT&Whisper APIs 등 (0) | 2023.03.06 |
---|---|
2023/03/05: Generative AI landscape (0) | 2023.03.05 |
2023/03/03: OpenAI Triton & Pytorch 2.0 (0) | 2023.03.03 |
2023/03/02: ETL Tools, ViT, Dunning-Kruger effect, Foundation Model 용어의 기원 등 (0) | 2023.03.02 |
2023/02/28: Emerging ML Tech Stack 등 (0) | 2023.02.28 |