Daily-Trend-Review

2023/02/27: AI 반도체 기술, 효과적인 Large AI 모델 빌딩하기 등

hellcat 2023. 2. 27. 09:35

1.대한민국 초거대 AI 시대를 열어가기 위한 AI 반도체 기술(2/10)

이동수 이사 (네이버 클라우드 AI) 발표

전체적으로 AI 추론은 메모리 문제가 커질 것으로 전망함

삼성(메모리) + NAVER AI 반도체 공동개발 중 → HyperCLOVA에 최적화된 AI 반도체 솔루션 개발

 

  • ChatGPT 서비스의 문제 
    • Sam Altman Said "Average is probably single-digits cents per chat"
  • Transformer는 MM이 전부임
    • 경량화 알고리즘이 중요함
  • GPT 계열의 특성
    • 입력 처리 (Computation-intensive)
    • 출력 처리 (Memory-intensive)
      • Why? GPT는 Autoregressive LM 이기 때문임
  • The End of SRAM Scaling?
    • TSMC HD SRAM Trend
      • 미세 공정화 되어도 SRAM의 면적이 줄지 않는다!
      • N5 (SRAM 22.5%) ---> N3 (SRAM 28.6%) : SRAM을 가속기에 추가하는데 어려움 예상 
  • Model Compression
    • Easy to adopt (CPU/GPU)
      • Structued Pruning
      • Knowledge DIstillation
      • Low-rank approx.
    • Computing System Dependency
      • Uniform Quantization (e.g. INT8)
    • Hard to adopt 
      • Non-uniform Quantization
      • Fine-grained Pruning
      • BNN

 

2. How to build Large AI Models like ChatGPT efficiently

source: https://machine-learning-made-simple.medium.com/how-to-build-large-ai-models-like-chatgpt-efficiently-1ec0bc33874f

 

How to build Large AI Models like ChatGPT efficiently

The techniques you can use to use large data models in your systems without breaking your bank

machine-learning-made-simple.medium.com

  • Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model
    • CO2 배출량: BLOOM (50.5 톤), GPT-3 (500톤 이상)
  • 배치크기
    • 배치 크기가 클수록 학습하는 동안 모델 업데이트가 줄어듬 --> 계산 비용이 낮아짐
    • Scaling Tensorflow to 300 million predictions per second
      • 배치 크기를 증가시켜 학습 비용을 절반으로 줄임
      • 하지만 배치 크기가 늘어나면 일반화와 정확도는 떨어짐
    • How does Batch Size impact your model learning
      • 배치크기와 모델 성능과의 관계
  • Active training
    • 데이터가 많을 경우 데이터 요소가 많이 겹칠 가능성이 큼. 이를 상당수 제거할수 있음
    • 이득을 볼 데이터 포인트를 어떻게 식별할까?
      • Beyond Nueral Scaling Laws: Beating Power Law Scaling via Data Pruning
  • 토큰 수 늘리기
    • Chinchilla 연구
      • 통찰: 모델의 매개변수 수에 너무 많은 초점을 맞추고 토큰 수와 같은 요소를 간과하였음
      • 컴퓨팅 예산이 주어지면 학습 토큰과 파라미터를 동일한 비율로 확장하는 것이 합리적임
      • AWS: "총 운영 비용에서 최대 90%를 차지합니다"
  • Sparse Activation
    • 더 많은 파라미터를 추가하는 것은 모델이 더 많은 task를 효과적으로 학습하도록 함
    • Sparse Activation은 추론 시 모델 네트워크의 일부분만을 사용하도록 하게 함
    • SWAT (Sparse Weight Activation Training) 
      • Zombie Neurons 사용
      • backward pass의 메모리 footprint 절감
        • Activation: 23 % ~ 50%
        • Weight: 50% ~ 90%
    • 간단한 모델을 사용
      • 대규모 AI 모델보다 고정규칙 모델/필터가 오히려 edge case에서 더 훌륭한 대안이 될 수 있음

 

3.ChatGPT Burns Millions Every Day. Can Computer Scientists Make AI One Million Times More Efficient?

source: 

https://www.forbes.com/sites/johnkoetsier/2023/02/10/chatgpt-burns-millions-every-day-can-computer-scientists-make-ai-one-million-times-more-efficient/?sh=1c8e8d826944 

 

ChatGPT Burns Millions Every Day. Can Computer Scientists Make AI One Million Times More Efficient?

“Deploying current ChatGPT into every search done by Google would require 512,820 A100 HGX servers with a total of 4,102,568 A100 GPUs,” they write. “The total cost of these servers and networking exceeds $100 billion of Capex alone, of which Nvidia

www.forbes.com

  • 우리의 두뇌는 ChatGPT의 클라우드 하드웨어를 구성하는 GPU, CPU 및 메모리보다 백만 배 더 효율적임
  • 제프리 힌튼은  NeurIPS 컨퍼런스에서 Analog & 뉴로모픽과 같은 인간적인 인공 뉴런이 필요하다라고 함
  • ChatGPT 학습 비용보다 추론 비용이 훨씬 많이 들어감
    • ChatGPT 컴퓨팅 비용으로 수백만$를 지출하고 있음
    • MS Bing은 훨씬 더 많은 비용이 들 것
  • SemiAnalysis의 Dylan Patel & Afzal Ahmad
    • 구글이 수행하는 모든 검색에 ChatGPT를 적용하려면 4,102,568개의 A100 GPU가 필요함
    • 서버와 네트워킹의 총 비용은 CAPEX만 1천억$를 초과함

 

4. Update: ChatGPT runs 10K Nvidia training GPUs with potential for thousands more

https://www.fierceelectronics.com/sensors/chatgpt-runs-10k-nvidia-training-gpus-potential-thousands-more