모델 parallelism
Tensor Parallelism
Column Parallelism
- Input 텐서: 복사
- Weight 텐서: 수직방향으로 분할
- 내적 후 Concatenation 수행
Row Parallelism
- Input 텐서: 수직방향
- Weight 텐서: 수평방향으로 분할
- 내적 후 add 수행
All-Gather와 Scatter 통신 생략하는 방법
- Column-Row 순서대로 2개의 Liner 레이어를 연결함 : All-Gather와 Scatter 통신 생략 가능함
Attention 레이어를 Tensor Parallelism
- QKV projection: Column 방향으로 병렬화함
- Output projection: Row 방향으로 병렬화함
- Column-Row 순으로 연결 시 All-Gather와 Scatter 통신 생략 가능함
'Review-Log' 카테고리의 다른 글
FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness (0) | 2023.04.16 |
---|---|
18B 파라미터 GPT 모델을 Single GPU로 학습하기 (Colossal-AI) (0) | 2022.05.24 |