Repository navigation

data-parallelism

Website
Wikipedia

Making large AI models cheaper, faster and more accessible

深度学习 hpc large-scale data-parallelism pipeline-parallelism model-parallelism 人工智能 big-model distributed-computing inference heterogeneous-training foundation-models

Python

41190

4532

5 天前

deepspeedai / DeepSpeed

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

深度学习 PyTorch gpu 机器学习 billion-parameters data-parallelism model-parallelism inference pipeline-parallelism compression mixture-of-experts trillion-parameters zero

Python

40300

4574

14 小时前

cerndb / dist-keras

Distributed Deep Learning, with a focus on distributed training, using Keras and Apache Spark.

机器学习深度学习 Apache Spark data-parallelism Keras optimization-algorithms Tensorflow 数据科学 hadoop

Python

623

167

7 年前

mratsim / weave

A state-of-the-art multithreading runtime: message-passing based, fast, scalable, ultra-low overhead

multithreading runtime message-passing openmp parallelism task-scheduler work-stealing threadpool scheduler data-parallelism

Nim

565

1 年前

PaddlePaddle / PaddleFleetX

飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。

paddlepaddle benchmark large-scale model-parallelism data-parallelism pipeline-parallelism cloud elastic lightning pretraining self-supervised-learning unsupervised-learning

Python

474

166

1 年前

Oneflow-Inc / libai

LiBai(李白): A Toolbox for Large-Scale Distributed Parallel Training

oneflow 自然语言处理深度学习 large-scale data-parallelism model-parallelism distributed-training pipeline-parallelism transformer self-supervised-learning vision-transformer

Python

407

2 个月前

alibaba / EasyParallelLibrary

Easy Parallel Library (EPL) is a general and efficient deep learning framework for distributed model training.

深度学习 data-parallelism model-parallelism pipeline-parallelism memory-efficient distributed-training gpu

Python

268

3 年前

dkeras-project / dkeras

Distributed Keras Engine, Make Keras faster with only one line of code.

机器学习 Keras keras-tensorflow distributed-deep-learning 深度学习 Tensorflow ray Python distributed parallel-computing 神经网络深度神经网络 distributed-systems keras-models keras-neural-networks keras-classification-models data-parallelism

Python

190

6 年前

wenwei202 / terngrad

Ternary Gradients to Reduce Communication in Distributed Deep Learning (TensorFlow)

distributed-training quantization 深度学习深度神经网络 data-parallelism

Python

183

7 年前

vertexclique / orkhon

Orkhon: ML Inference Framework and Server Runtime

inference-server 机器学习 Python Tensorflow async multiprocessing data-parallelism

Rust

151

5 年前

xrsrke / pipegoose

Large scale 4D parallelism pre-training for 🤗 transformers in Mixture of Experts *(still work in progress)*

megatron transformers data-parallelism pipeline-parallelism model-parallelism huggingface-transformers mixture-of-experts moe

Python

2 年前

hkproj / pytorch-transformer-distributed

Distributed training (multi-node) of a Transformer model

data-parallelism 深度学习 distributed-training 机器学习 model-parallelism PyTorch 教程

Python

1 年前

NERSC / sc23-dl-tutorial

SC23 Deep Learning at Scale Tutorial Material

data-parallelism 深度学习 model-parallelism vision-transformers

Python

1 年前

kuixu / keras_multi_gpu

Multi-GPU training for Keras

Keras data-parallelism

Python

8 年前

NERSC / dl-at-scale-training

Deep Learning at Scale Training Event at NERSC

data-parallelism 深度学习 hpc model-parallelism performance-optimization

Python

4 个月前

ryantd / veloce

WIP. Veloce is a low-code Ray-based parallelization library that makes machine learning computation novel, efficient, and heterogeneous.

ray distributed PyTorch distributed-computing data-parallelism parameter-server 深度学习 model-parallelism sparsity

Python

3 年前

NERSC / dl4sci25-dl-at-scale

Deep learning for science school material 2025

data-parallelism 深度学习 model-parallelism parallel-computing transformer weather-forecast

Python

3 个月前

tcoppex / cpu-gbfilter

♨ Optimized Gaussian blur filter on CPU.

multithreaded blur 图像处理 openmp data-parallelism

C++

8 年前

yangyang14641 / Parallel-Matrix-Multiplication-FOX-Algorithm

☕Implement of Parallel Matrix Multiplication Methods Using FOX Algorithm on Peking University's High-performance Computing System

matrix-multiplication parallel-algorithm data-parallelism intel mpi openmp high-performance-computing

7 年前

daekeun-ml / sm-distributed-training-step-by-step

This repository provides hands-on labs on PyTorch-based Distributed Training and SageMaker Distributed Training. It is written to make it easy for beginners to get started, and guides you through step-by-step modifications to the code based on the most basic BERT use cases.

data-parallelism distributed-training sagemaker

Jupyter Notebook

2 年前