https://arxiv.org/abs/2311.04934
선행 연구
문제 제기
- 많은 입력 프롬프트는 겹치는 텍스트 세그먼트 (e.g. system messages, prompt templates, context를 위해 제공되는 문서 등)들이 있음
- Legal analysis, healthcare application, education과 같은 컨텍스트 LLM application은 프롬프트에 하나 또는 여러가지 문서를 포함함.
- 추론 시 프롬프트의 길이가 길수록 Time-to-First Token(TTFT)가 증가함. 사용자의 입력 프롬프트에 겹치는 텍스트 세그먼트를 prefill 과정에서 매번 recomputation하므로 계산 오버헤드가 발생함.
해결 방안
- 추론 서버에서 자주 발생하는 텍스트 세그먼트의 어텐션 상태를 미리 계산하고 저장함으로써 이들 세그먼트가 사용자 프롬프트 상에 나타날 때 효율적으로 재사용할 수 있음
- 본 논문의 계산 오버헤드를 줄이기 위해 prompt cache라는 방법을 제안함. 핵심 아이디어는 자주 사용되는 프롬프트 세그먼트의 attention 상태를 precomputation하여 메모리에 저장함
- Prompt Cache는 정확도 손실없이 TTFT을 GPU 환경에서 1.5x - 10x, CPU 환경에서 20x - 70x 개선함
연구 의의
'Daily-Trend-Review' 카테고리의 다른 글
2023/12/23: how to make LLMs go fast (0) | 2023.12.23 |
---|---|
2023/12/18: Mixtral 8x7B (1) | 2023.12.18 |
2023/12/12: chip cloud 논문 (0) | 2023.12.14 |
2023/12/11: LLM and Transformers Series (0) | 2023.12.11 |
2023/12/11: LLM Visualization (0) | 2023.12.11 |