Daily-Trend-Review 107

2023/07/24: LongNet

Microsoft Just Showed us the Future of ChatGPT with LongNet Context Length (Sequence Length) Sequence Length와 계산 비용 사이에 2차 관계에 있음 입력 텍스트 시퀀스의 길이를 두배로 늘리면 챗봇을 실행하는데 드는 비용은 4배가 됨 결과적으로 LLM을 구축하는 AI 회사는 입력 시퀀스의 최대 크기를 제한할 수 밖에 없음 Sequence length의 중요성 입력이 풍부할수록 결과가 더 좋아짐 →프롬프트에 제공되지 않는 한 질문에 대답할 때 챗봇은 학습 중에 얻은 weitht에 포함된 지식을 신뢰함 하지만 모델은 거의 필터링없이 인터넷 텍스트의 상당 부분을 학습하였음 pre-trained 모델에서 사전 학습된 지식에 대해 ..

Daily-Trend-Review 2023.07.24

2023/07/16: LLM에 대한 실용적인 소개 등

https://medium.com/towards-data-science/a-practical-introduction-to-llms-65194dda1148 A Practical Introduction to LLMs 3 levels of using LLMs in practice towardsdatascience.com A Practical Introduction to LLMs LLM이 특별한 이유 정량적으로 LLM을 구별하는 것은 모델에 사용되는 파라미터의 수 10B ~ 100B개의 파라미터를 가지고 있음 질적으로 LM이 커지게 되면 창발적인 속성이 나타남 LM이 충분히 큰 사이즈에 도달하면 갑자기 나타나는 속성임 Zero-shot Learning GPT-3의 주요 혁신은 다양한 상황에서 Zero-shot ..

Daily-Trend-Review 2023.07.16