https://mistral.ai/news/mixtral-of-experts
Total Parameteters : 46.7B
실제 토큰 생성 시 활성화되는 파라미터는 12.9B
Perfromance
벤치마크 결과, LLaMA2 70B과 GPT-3.5에 비해 더 좋은 성능을 보여준다.
'Daily-Trend-Review' 카테고리의 다른 글
2023/12/23: RAG 101 (0) | 2023.12.23 |
---|---|
2023/12/23: how to make LLMs go fast (0) | 2023.12.23 |
2023/12/14: Prompt Cache: Modular Attention Reuse For Low-Latency Inference (1) | 2023.12.14 |
2023/12/12: chip cloud 논문 (0) | 2023.12.14 |
2023/12/11: LLM and Transformers Series (0) | 2023.12.11 |