Daily-Trend-Review

2023/07/11: GPT-4, Longnet, knowledge base

hellcat 2023. 7. 11. 08:23

1. Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System

source: https://arxiv.org/pdf/2304.13343.pdf

2. GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE

source: https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

3. LONGNET: Scaling Transformers to 1,000,000,000 Tokens

source: https://arxiv.org/pdf/2307.02486v1.pdf

4. How Do 8 Smaller Models in GPT4 Work?

source: https://pub.towardsai.net/how-do-8-smaller-models-in-gpt4-work-7335ccdfcf05

5. State of the LLM: Unlocking Business Potential with Large Language Models

source: https://blog.ml6.eu/state-of-the-llm-unlocking-business-potential-with-large-language-models-87b442f3253d

6. Leveraging LLMs on your domain-specific knowledge base

source: https://blog.ml6.eu/leveraging-llms-on-your-domain-specific-knowledge-base-4441c8837b47

 

Leveraging LLMs on your domain-specific knowledge base

With RAG to Riches: wielding the power of LLMs using Retrieval-Augmented Generation to talk to your data

blog.ml6.eu

  • LLM의
    • LLM은 거대한 데이터셋에 대해서 학습됨
    • LLM이 일반 언어를 의미있게 이해하고 학습 데이터에 있는 정보와 관련된 정보를 재생성할 수 있음
    • 학습하지 않은 특정 지식을 학습

 

7. Knowledge Retrieval Architecture for LLM’s (2023)

source: https://mattboegner.com/knowledge-retrieval-architecture-for-llms/

8. The Next Token of Progress: 4 Unlocks on the Generative AI Horizon

source: https://a16z.com/2023/06/23/the-next-token-of-progress-4-unlocks-on-the-generative-ai-horizon/

 

The Next Token of Progress: 4 Unlocks on the Generative AI Horizon

How 4 key AI innovations will evolve over the next 6–12 months, and how founders can integrate these new advances into their businesses.

a16z.com

 

결론: LLM은 방대한 양의 관련 정보를 고려하여 보다 개인화되어 맞춤화되고 유용한 결과를 제공할 수 있다.

 

  • 대부분의 LLM 출력은 상대적으로 일반화되어 있어 개인화 및 컨텍스트 이해가 필요한 사용 사례에 활용하기 어려움
  • 프롬프트 엔지니어링: 개인화가 가능하나 확장성이 떨어짐
  • finetuning: 재학습이 필용하고 대부분 close LLM과 긴밀하게 협력해야 하며 비용이 듬. 모든 개별 사용자에 대해 모델을 finetuning한 것은 실현 가능하지 않음
  • In-context learning
    • 회사에서 제작한 컨텐츠, 회사의 특정 전문 용어 및 특정 컨텍스트에서 가져오는 In-context learning은 특정 사용 사례에 더 세련되고 맞춤화된 출력을 생성함
    • 이를 위해 LLM에 향상된 메모리 기능이 필요함
    • LLM에는 context window와 검색(retrieval)이라는 두가지 기본 구성요소가 있음
    • 대부분 LLM에는 context window이 제한되어 있어 기본적으로 추가 정보를 검색할 수 없으므로 덜 개인화된 출력을 생성
    • 더 큰 context window과 개선된 검색을 통해 LLM은 개별 사용 사례에 맞게 훨씬 더 세련된 출력을 직접 제공할 수 있음
  •  확장된 context window
    • 대화의 연속성을 유지하면서 더 많은 양의 텍스트를 처리하고 컨텍스트를 더 잘 유지할 수 있음
    • 긴 기사를 요약하거나 확장된 대화에서 일관되고 상황에 맞는 정확한 응답을 생성하는 것과 같이 더 긴 입력에 대한 더 깊은 이해가 필요한 작업을 수행하는 모델의 능력이 크게 향상됨
    • 확장된 Context window는 추론의 비용과 시간을 2차적으로 확장시킴
    • 검색 메커니즘
      • 프롬프트와 가장 관련성이 높은 컨텍스트 데이터를 사용하여 LLM의 원래 학습 코퍼스를 보강하고 개선
      • 이점 1) 학습 시간에 없었던 정보 소스에 엑세스할 수 있음
      • 이점 2) task와 관련이 있다라고 생각하는 정보에 언어 모델을 집중시킬 수 있음
        • pinecone과 같은 벡터 데이터베이스관련 정보의 효율적인 검색을 위한 사실상의 표준으로 부상됨
        • 모델이 방대한 양의 정보 중에서 올바른 데이터를 빠르고 정확하게 검색하고 참조할 수 있도록 함
    • 증가된 context window의 사용 사례
      • 엔터프라이즈
        • 회사는 내부 지식, 과거 고객 지원, 재무 결과와 같이 독점 데이터를 미세 조정없이 LLM에 입력하여 더 잘 활용할 수 있음
        • LLM의 메모리를 개선하면 교육,보고,내부 검색, 데이터 분석 및 비즈니스 인텔리전스, 고객 지원과 같은 영역에서 개선되고 심층적으로 맞춤화된 기능을 이어짐
      • 소비자
        • 사용자 경험을 혁신할 수 있는 강력한 개인화 기능을 사용할 수 있음
        • Noam Shazeer : "각 사용자에게 맞게 사용자 정의할 수 있는 매우 높은 메모리 용량을 가지고 있으면서도 대규모로 비용 효율적인 서비스를 제공하는 모델을 개발하는 것"
        • "당신은 당신의 치료사가 당신의 삶에 대한 모든 것을 알기 원하며 당신이 이미 알고 있는 것을 선생님이 이해하길 원함"