Daily-Trend-Review

2023/03/06: LLaMA, OpenAI ChatGPT&Whisper APIs 등

hellcat 2023. 3. 6. 08:48

1. Full Stack Optimization of Transformer Inference: a Survey

source: https://arxiv.org/pdf/2302.14017.pdf

  • UC Berkeley 저자들이 참여하여 쓴 Survey 논문
  • 주요 내용
    • Transformer Model Architecture and Performance Bottlenecks
    • HW Design
    • Model Optimization
    • Mapping Transformers To HW

2. LLaMA Test!!

Local Machine

  • source: http://rentry.org//llama-tard
  • LLaMA의 weight를 이용하여 Single Card에서 수행할 수 있도록 함 (LLaMA INT8 Inferencde guide)

Huggingface

source: http://huggingface.co/spaces/chansung/LLaMA-7B

  • LLaMA의 7B를 실제로 테스트 가능함

3. Introducing ChatGPT and Whisper APIs

source: https://openai.com/blog/introducing-chatgpt-and-whisper-apis

4. 챗GPT가 열어버린 판도라 상자

source: https://zdnet.co.kr/view/?no=20230220090630

  • 법적으로 AI가 창작자로 인정이 되는지 여부가 명확하지 않음.
  • AI가 창작자로 인정받느냐에 따라 AI의 결과물이 AI를 개발자나 기업에게 있을 수 있음
  • ChatGPT로 인해 잠재적으로 논의되어 온 이슈들이 한꺼번에 열렸음 (저작물 인정, 저작권 귀속, 저작권 침해 등)

5. Stable Diffusion

source: https://huggingface.co/spaces/stabilityai/stable-diffusion

  • Stable Diffusion 2.1 Demo
  • Demo Backend를 TPU+JAX를 쓴다는 것이 특이한 점 (stability.ai와 aws는 제휴관계)

6. ChatGPT: Automatic expensive BS at scale

source: https://medium.com/@colin.fraser/chatgpt-automatic-expensive-bs-at-scale-a113692b13d5

  • 언어모델의 학습과 인간 지능의 학습은 차이가 있음
  • 일반적으로 지적인 존재는 이전에 본 적이 없는 작업을 수행하기 위해 간단한 지시를 따를 수 있어야 함
  • "LM은 방대한 학습 데이터에서 관찰한 언어의 결합 방식에 대한 확률적 정보에 따라 의미에 대한 레퍼런스가 없이 임의로 연결하는 시스템임" (확률적 앵무새)
  • 7세 아이는 10억 권도 안 되는 책을 읽었지만 우리가 겪은 모든 문제를 상당히 확실하게 해결할 수 있음
  • 불안전성이 발생하는 이유
    • 1) LLM는 제기된 문제를 해결하려고 하지 않음.
      • 이전 단어가 주어졌을 때 가능성이 가장 높은 것을 찾을 뿐임
      • 출력이 올바른 솔루션에 해당하는지는 완전히 부수적인 문제임
    • 2) 언어모델에서 제공하는 응답에는 내재된 무작위성이 있음. 
  • LM은 자극으로부터 지속적으로 학습하지 않음
  • 언어 모델은 진실과 관계가 없고, 참도 거짓의 편도 아님
  • 이전 단어와 훈련 데이터가 주어지면 가장 가능성이 높은 단어를 예측할 뿐임

7. Language Model Scaling Laws and GPT-3

source: https://towardsdatascience.com/language-model-scaling-laws-and-gpt-3-5cdc034e67bb

  • 레이블이 지정되지 않은 대규모 텍스트 말뭉치에 대해 LM을 pre-training 하면 텍스트 프롬프트를 통해 LM에 문제 해결을 요청할 수 있음
  • 이러한 방식으로 Pre-trained 모델은 다양한 문제를 해결하기 위해 쉽게 용도 변경될 수 있음