1. Full Stack Optimization of Transformer Inference: a Survey
source: https://arxiv.org/pdf/2302.14017.pdf
- UC Berkeley 저자들이 참여하여 쓴 Survey 논문
- 주요 내용
- Transformer Model Architecture and Performance Bottlenecks
- HW Design
- Model Optimization
- Mapping Transformers To HW
2. LLaMA Test!!
Local Machine
- source: http://rentry.org//llama-tard
- LLaMA의 weight를 이용하여 Single Card에서 수행할 수 있도록 함 (LLaMA INT8 Inferencde guide)
Huggingface
source: http://huggingface.co/spaces/chansung/LLaMA-7B
- LLaMA의 7B를 실제로 테스트 가능함
3. Introducing ChatGPT and Whisper APIs
source: https://openai.com/blog/introducing-chatgpt-and-whisper-apis
4. 챗GPT가 열어버린 판도라 상자
source: https://zdnet.co.kr/view/?no=20230220090630
- 법적으로 AI가 창작자로 인정이 되는지 여부가 명확하지 않음.
- AI가 창작자로 인정받느냐에 따라 AI의 결과물이 AI를 개발자나 기업에게 있을 수 있음
- ChatGPT로 인해 잠재적으로 논의되어 온 이슈들이 한꺼번에 열렸음 (저작물 인정, 저작권 귀속, 저작권 침해 등)
5. Stable Diffusion
source: https://huggingface.co/spaces/stabilityai/stable-diffusion
- Stable Diffusion 2.1 Demo
- Demo Backend를 TPU+JAX를 쓴다는 것이 특이한 점 (stability.ai와 aws는 제휴관계)
6. ChatGPT: Automatic expensive BS at scale
source: https://medium.com/@colin.fraser/chatgpt-automatic-expensive-bs-at-scale-a113692b13d5
- 언어모델의 학습과 인간 지능의 학습은 차이가 있음
- 일반적으로 지적인 존재는 이전에 본 적이 없는 작업을 수행하기 위해 간단한 지시를 따를 수 있어야 함
- "LM은 방대한 학습 데이터에서 관찰한 언어의 결합 방식에 대한 확률적 정보에 따라 의미에 대한 레퍼런스가 없이 임의로 연결하는 시스템임" (확률적 앵무새)
- 7세 아이는 10억 권도 안 되는 책을 읽었지만 우리가 겪은 모든 문제를 상당히 확실하게 해결할 수 있음
- 불안전성이 발생하는 이유
- 1) LLM는 제기된 문제를 해결하려고 하지 않음.
- 이전 단어가 주어졌을 때 가능성이 가장 높은 것을 찾을 뿐임
- 출력이 올바른 솔루션에 해당하는지는 완전히 부수적인 문제임
- 2) 언어모델에서 제공하는 응답에는 내재된 무작위성이 있음.
- 1) LLM는 제기된 문제를 해결하려고 하지 않음.
- LM은 자극으로부터 지속적으로 학습하지 않음
- 언어 모델은 진실과 관계가 없고, 참도 거짓의 편도 아님
- 이전 단어와 훈련 데이터가 주어지면 가장 가능성이 높은 단어를 예측할 뿐임
7. Language Model Scaling Laws and GPT-3
source: https://towardsdatascience.com/language-model-scaling-laws-and-gpt-3-5cdc034e67bb
- 레이블이 지정되지 않은 대규모 텍스트 말뭉치에 대해 LM을 pre-training 하면 텍스트 프롬프트를 통해 LM에 문제 해결을 요청할 수 있음
- 이러한 방식으로 Pre-trained 모델은 다양한 문제를 해결하기 위해 쉽게 용도 변경될 수 있음
'Daily-Trend-Review' 카테고리의 다른 글
2023/03/08: Disffusion Models Course, LM vs Thinking 등 (0) | 2023.03.08 |
---|---|
2023/03/07: Specialized LLMs, Prompt Engineering 등 (0) | 2023.03.07 |
2023/03/05: Generative AI landscape (0) | 2023.03.05 |
2023/03/03: OpenAI Triton & Pytorch 2.0 (0) | 2023.03.03 |
2023/03/02: ETL Tools, ViT, Dunning-Kruger effect, Foundation Model 용어의 기원 등 (0) | 2023.03.02 |