Repository navigation

model-parallelism

Website
Wikipedia

Making large AI models cheaper, faster and more accessible

深度学习 hpc large-scale data-parallelism pipeline-parallelism model-parallelism 人工智能 big-model distributed-computing inference heterogeneous-training foundation-models

Python

41095

4526

2 天前

deepspeedai / DeepSpeed

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

深度学习 PyTorch gpu 机器学习 billion-parameters data-parallelism model-parallelism inference pipeline-parallelism compression mixture-of-experts trillion-parameters zero

Python

39788

4523

1 天前

kakaobrain / torchgpipe

A GPipe implementation in PyTorch

深度学习 PyTorch gpipe model-parallelism pipeline-parallelism parallelism checkpointing

Python

849

1 年前

PaddlePaddle / PaddleFleetX

飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。

paddlepaddle benchmark large-scale model-parallelism data-parallelism pipeline-parallelism cloud elastic lightning pretraining self-supervised-learning unsupervised-learning

Python

474

166

1 年前

Oneflow-Inc / libai

LiBai(李白): A Toolbox for Large-Scale Distributed Parallel Training

oneflow 自然语言处理深度学习 large-scale data-parallelism model-parallelism distributed-training pipeline-parallelism transformer self-supervised-learning vision-transformer

Python

408

20 天前

kaiyuyue / torchshard

Slicing a PyTorch Tensor Into Parallel Shards

PyTorch model-parallelism

Python

300

2 个月前

alibaba / EasyParallelLibrary

Easy Parallel Library (EPL) is a general and efficient deep learning framework for distributed model training.

深度学习 data-parallelism model-parallelism pipeline-parallelism memory-efficient distributed-training gpu

Python

267

2 年前

Shenggan / awesome-distributed-ml

A curated list of awesome projects and papers for distributed training or inference

深度学习 distributed-systems high-performance-computing 机器学习 model-parallelism pipeline-parallelism

241

10 个月前

xrsrke / pipegoose

Large scale 4D parallelism pre-training for 🤗 transformers in Mixture of Experts *(still work in progress)*

megatron transformers data-parallelism pipeline-parallelism model-parallelism huggingface-transformers mixture-of-experts moe

Python

2 年前

hkproj / pytorch-transformer-distributed

Distributed training (multi-node) of a Transformer model

data-parallelism 深度学习 distributed-training 机器学习 model-parallelism PyTorch 教程

Python

1 年前

tanyuqian / redco

NAACL '24 (Best Demo Paper RunnerUp) / MlSys @ NeurIPS '23 - RedCoast: A Lightweight Tool to Automate Distributed Training and Inference

jax model-parallelism distributed-training large-language-models llama diffusion-models federated-learning image-captioning maml meta-learning ppo reinforcement-learning seq2seq stable-diffusion mlsys gemma differential-privacy

Python

8 个月前

NERSC / sc23-dl-tutorial

SC23 Deep Learning at Scale Tutorial Material

data-parallelism 深度学习 model-parallelism vision-transformers

Python

1 年前

vdutts7 / dnn-distributed

Distributed training of DNNs • C++/MPI Proxies (GPT-2, GPT-3, CosmoFlow, DLRM)

distributed-deep-learning dnn model-parallelism 深度神经网络 mpi

C++

1 年前

NERSC / dl-at-scale-training

Deep Learning at Scale Training Event at NERSC

data-parallelism 深度学习 hpc model-parallelism performance-optimization

Python

2 个月前

ryantd / veloce

WIP. Veloce is a low-code Ray-based parallelization library that makes machine learning computation novel, efficient, and heterogeneous.

ray distributed PyTorch distributed-computing data-parallelism parameter-server 深度学习 model-parallelism sparsity

Python

3 年前

NERSC / dl4sci25-dl-at-scale

Deep learning for science school material 2025

data-parallelism 深度学习 model-parallelism parallel-computing transformer weather-forecast

Python

2 个月前

AlibabaPAI / FlashModels

Fast and easy distributed model training examples.

distributed-training xla data-parallelism 深度学习 model-parallelism PyTorch zero 大语言模型

Python

9 个月前

ShashankSubramanian / transformer-perf-estimates

Performance Estimates for Transformer AI Models in Science

model-parallelism transformer

Jupyter Notebook

1 年前

atakehiro / 3D-U-Net-pytorch-model-parallel

PyTorch implementation of 3D U-Net with model parallel in 2GPU for large model

PyTorch model-parallelism

Python

5 年前

Shenggan / atp

Adaptive Tensor Parallelism for Foundation Models

attention distributed-training model-parallelism PyTorch transformer gpt

Python

3 年前