분류 전체보기 135

2023/12/14: Prompt Cache: Modular Attention Reuse For Low-Latency Inference

https://arxiv.org/abs/2311.04934 Prompt Cache: Modular Attention Reuse for Low-Latency Inference We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and docu arxiv.org 선행 연구 문제 제기 많은 입력 프롬프트는 겹치는 텍스트 세그..

Daily-Trend-Review 2023.12.14

2023/12/12: chip cloud 논문

논문: chipset cloud: building AI Supercomputers for Serving Large Generative Language Models GPU의 문제점 GPU에서 LLM을 제공하는 것은 확장성 측면에서 어려움 GPT-3 처리량 새로운 LLM용 chiplet 기반 ASIC AI 슈퍼컴퓨터 아키텍처-chiplet cloud를 제안함 LLM에 실행에 따른 자본 지출과 에너지 비용을 모두 해결하려면 Total Cost of Ownership(TCO) per token을 달성하는 하드웨어 시스템을 설계해야 함 이 논문의 기여 섹션 #2: 생성 LLM을 서빙하기 위해 현재 하드웨어에 대한 연구, ASIC 슈퍼컴퓨터 구축의 필요성에 대한 동기 부여 섹션 #3: 더 나은 TCO/token을 ..

Daily-Trend-Review 2023.12.14

2023/12/11: Reproducible Performance Metrics for LLM inference

https://www.anyscale.com/blog/reproducible-performance-metrics-for-llm-inference Reproducible Performance Metrics for LLM inference Anyscale is releasing LLMPerf for benchmarking LLMs on current LLM offerings. See benchmarking results for Anyscale Endpoints vs Fireworks.ai. www.anyscale.com LLM의 정량적인 성능 지표 분당 완료된 요청 (requests/sec) TTFT(Time To First Token) ITL(Inter-Token Latency) End-to-End Lat..

Daily-Trend-Review 2023.12.11