1. Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System
source: https://arxiv.org/pdf/2304.13343.pdf
2. GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE
source: https://www.semianalysis.com/p/gpt-4-architecture-infrastructure
3. LONGNET: Scaling Transformers to 1,000,000,000 Tokens
source: https://arxiv.org/pdf/2307.02486v1.pdf
4. How Do 8 Smaller Models in GPT4 Work?
source: https://pub.towardsai.net/how-do-8-smaller-models-in-gpt4-work-7335ccdfcf05
5. State of the LLM: Unlocking Business Potential with Large Language Models
6. Leveraging LLMs on your domain-specific knowledge base
source: https://blog.ml6.eu/leveraging-llms-on-your-domain-specific-knowledge-base-4441c8837b47
- LLM의
- LLM은 거대한 데이터셋에 대해서 학습됨
- LLM이 일반 언어를 의미있게 이해하고 학습 데이터에 있는 정보와 관련된 정보를 재생성할 수 있음
- 학습하지 않은 특정 지식을 학습
7. Knowledge Retrieval Architecture for LLM’s (2023)
source: https://mattboegner.com/knowledge-retrieval-architecture-for-llms/
8. The Next Token of Progress: 4 Unlocks on the Generative AI Horizon
source: https://a16z.com/2023/06/23/the-next-token-of-progress-4-unlocks-on-the-generative-ai-horizon/
결론: LLM은 방대한 양의 관련 정보를 고려하여 보다 개인화되어 맞춤화되고 유용한 결과를 제공할 수 있다.
- 대부분의 LLM 출력은 상대적으로 일반화되어 있어 개인화 및 컨텍스트 이해가 필요한 사용 사례에 활용하기 어려움
- 프롬프트 엔지니어링: 개인화가 가능하나 확장성이 떨어짐
- finetuning: 재학습이 필용하고 대부분 close LLM과 긴밀하게 협력해야 하며 비용이 듬. 모든 개별 사용자에 대해 모델을 finetuning한 것은 실현 가능하지 않음
- In-context learning
- 회사에서 제작한 컨텐츠, 회사의 특정 전문 용어 및 특정 컨텍스트에서 가져오는 In-context learning은 특정 사용 사례에 더 세련되고 맞춤화된 출력을 생성함
- 이를 위해 LLM에 향상된 메모리 기능이 필요함
- LLM에는 context window와 검색(retrieval)이라는 두가지 기본 구성요소가 있음
- 대부분 LLM에는 context window이 제한되어 있어 기본적으로 추가 정보를 검색할 수 없으므로 덜 개인화된 출력을 생성
- 더 큰 context window과 개선된 검색을 통해 LLM은 개별 사용 사례에 맞게 훨씬 더 세련된 출력을 직접 제공할 수 있음
- 확장된 context window
- 대화의 연속성을 유지하면서 더 많은 양의 텍스트를 처리하고 컨텍스트를 더 잘 유지할 수 있음
- 긴 기사를 요약하거나 확장된 대화에서 일관되고 상황에 맞는 정확한 응답을 생성하는 것과 같이 더 긴 입력에 대한 더 깊은 이해가 필요한 작업을 수행하는 모델의 능력이 크게 향상됨
- 확장된 Context window는 추론의 비용과 시간을 2차적으로 확장시킴
- 검색 메커니즘
- 프롬프트와 가장 관련성이 높은 컨텍스트 데이터를 사용하여 LLM의 원래 학습 코퍼스를 보강하고 개선
- 이점 1) 학습 시간에 없었던 정보 소스에 엑세스할 수 있음
- 이점 2) task와 관련이 있다라고 생각하는 정보에 언어 모델을 집중시킬 수 있음
- pinecone과 같은 벡터 데이터베이스관련 정보의 효율적인 검색을 위한 사실상의 표준으로 부상됨
- 모델이 방대한 양의 정보 중에서 올바른 데이터를 빠르고 정확하게 검색하고 참조할 수 있도록 함
- 증가된 context window의 사용 사례
- 엔터프라이즈
- 회사는 내부 지식, 과거 고객 지원, 재무 결과와 같이 독점 데이터를 미세 조정없이 LLM에 입력하여 더 잘 활용할 수 있음
- LLM의 메모리를 개선하면 교육,보고,내부 검색, 데이터 분석 및 비즈니스 인텔리전스, 고객 지원과 같은 영역에서 개선되고 심층적으로 맞춤화된 기능을 이어짐
- 소비자
- 사용자 경험을 혁신할 수 있는 강력한 개인화 기능을 사용할 수 있음
- Noam Shazeer : "각 사용자에게 맞게 사용자 정의할 수 있는 매우 높은 메모리 용량을 가지고 있으면서도 대규모로 비용 효율적인 서비스를 제공하는 모델을 개발하는 것"
- "당신은 당신의 치료사가 당신의 삶에 대한 모든 것을 알기 원하며 당신이 이미 알고 있는 것을 선생님이 이해하길 원함"
- 엔터프라이즈
'Daily-Trend-Review' 카테고리의 다른 글
2023/07/18: Long Sequence (0) | 2023.07.18 |
---|---|
2023/07/16: LLM에 대한 실용적인 소개 등 (0) | 2023.07.16 |
2023/07/10: An Infinite Memory ChatGPT? (0) | 2023.07.10 |
2023/07/07: SW 애플리케이션에서 대규모 언어모델 활용 (0) | 2023.07.07 |
2023/07/06: Vector DB, Transformer, Context Window, vLLM 등 (0) | 2023.07.06 |