Review-Log 3

Model Parallelism

모델 parallelism Tensor Parallelism Column Parallelism Input 텐서: 복사 Weight 텐서: 수직방향으로 분할 내적 후 Concatenation 수행 Row Parallelism Input 텐서: 수직방향 Weight 텐서: 수평방향으로 분할 내적 후 add 수행 All-Gather와 Scatter 통신 생략하는 방법 Column-Row 순서대로 2개의 Liner 레이어를 연결함 : All-Gather와 Scatter 통신 생략 가능함 Attention 레이어를 Tensor Parallelism QKV projection: Column 방향으로 병렬화함 Output projection: Row 방향으로 병렬화함 Column-Row 순으로 연결 시 All-Gat..

Review-Log 2023.10.03

18B 파라미터 GPT 모델을 Single GPU로 학습하기 (Colossal-AI)

https://github.com/hpcaitech/ColossalAI GitHub - hpcaitech/ColossalAI: Colossal-AI: A Unified Deep Learning System for Big Model Era Colossal-AI: A Unified Deep Learning System for Big Model Era - GitHub - hpcaitech/ColossalAI: Colossal-AI: A Unified Deep Learning System for Big Model Era github.com Colossa-AI의 특징 vanilla Pytorch 와 MS DeepSpeed와 같은 메인스트림 분산 솔루션보다 더 좋은 성능을 낸다. Colossa-AI의 사용예 RTX..

Review-Log 2022.05.24