Daily-Trend-Review

2023/12/14: Prompt Cache: Modular Attention Reuse For Low-Latency Inference

hellcat 2023. 12. 14. 17:02

https://arxiv.org/abs/2311.04934

 

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and docu

arxiv.org

 

선행 연구

 

 

 

문제 제기

  • 많은 입력 프롬프트는 겹치는 텍스트 세그먼트 (e.g. system messages, prompt templates, context를 위해 제공되는 문서 등)들이 있음
  • Legal analysis, healthcare application, education과 같은 컨텍스트 LLM application은 프롬프트에 하나 또는 여러가지 문서를 포함함. 
  • 추론 시 프롬프트의 길이가 길수록 Time-to-First Token(TTFT)가 증가함. 사용자의 입력 프롬프트에 겹치는 텍스트 세그먼트를 prefill 과정에서 매번 recomputation하므로 계산 오버헤드가 발생함.

해결 방안

  • 추론 서버에서 자주 발생하는 텍스트 세그먼트의 어텐션 상태를 미리 계산하고 저장함으로써 이들 세그먼트가 사용자 프롬프트 상에 나타날 때 효율적으로 재사용할 수 있음
  • 본 논문의 계산 오버헤드를 줄이기 위해 prompt cache라는 방법을 제안함. 핵심 아이디어는 자주 사용되는 프롬프트 세그먼트의 attention 상태를 precomputation하여 메모리에 저장함
  • Prompt Cache는 정확도 손실없이 TTFT을 GPU 환경에서 1.5x - 10x, CPU 환경에서 20x - 70x 개선함 

 

연구 의의

'Daily-Trend-Review' 카테고리의 다른 글

2023/12/23: how to make LLMs go fast  (0) 2023.12.23
2023/12/18: Mixtral 8x7B  (1) 2023.12.18
2023/12/12: chip cloud 논문  (0) 2023.12.14
2023/12/11: LLM and Transformers Series  (0) 2023.12.11
2023/12/11: LLM Visualization  (0) 2023.12.11