모델 parallelism Tensor Parallelism Column Parallelism Input 텐서: 복사 Weight 텐서: 수직방향으로 분할 내적 후 Concatenation 수행 Row Parallelism Input 텐서: 수직방향 Weight 텐서: 수평방향으로 분할 내적 후 add 수행 All-Gather와 Scatter 통신 생략하는 방법 Column-Row 순서대로 2개의 Liner 레이어를 연결함 : All-Gather와 Scatter 통신 생략 가능함 Attention 레이어를 Tensor Parallelism QKV projection: Column 방향으로 병렬화함 Output projection: Row 방향으로 병렬화함 Column-Row 순으로 연결 시 All-Gat..