https://medium.com/towards-data-science/a-practical-introduction-to-llms-65194dda1148
A Practical Introduction to LLMs
LLM이 특별한 이유
- 정량적으로 LLM을 구별하는 것은 모델에 사용되는 파라미터의 수
- 10B ~ 100B개의 파라미터를 가지고 있음
- 질적으로 LM이 커지게 되면 창발적인 속성이 나타남
- LM이 충분히 큰 사이즈에 도달하면 갑자기 나타나는 속성임
Zero-shot Learning
- GPT-3의 주요 혁신은 다양한 상황에서 Zero-shot 학습이 가능하다는 것
- 이 zero-shot 학습 능력은 이전 ML 패러다임과 완전히 대조됨
- 이전에는 수행하려는 task에 대해서 명시적으로 교육을 받아야만 했음
- LLM은 명시적인 교육없이 모든 작업을 수행할 수 있음
LLM 사용의 3 단계
- 프롬프트 엔지니어링
- 모델 파라미터를 변경하지 않고 바로 사용할 수 있음
- 가장 접근하기 쉬운 방법
- 모델 fine-tuning
- 기존 LLM을 모델 파라미터를 변경하여 특정 사용 사례에 맞게 조정
- Pre-trained LLM --> 고품질 데이터셋(일반적으로 1K)로 fine-tuning하여 특정 작업에 대해 모델 파라미터를 업데이트함
'Daily-Trend-Review' 카테고리의 다른 글
2023/07/21: MQA, LLaMA2, Flashattention2 (0) | 2023.07.21 |
---|---|
2023/07/18: Long Sequence (0) | 2023.07.18 |
2023/07/11: GPT-4, Longnet, knowledge base (0) | 2023.07.11 |
2023/07/10: An Infinite Memory ChatGPT? (0) | 2023.07.10 |
2023/07/07: SW 애플리케이션에서 대규모 언어모델 활용 (0) | 2023.07.07 |