Repository navigation

post-training-quantization

Website
Wikipedia

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models gptq int8

Python

2503

281

5 天前

666DZY666 / micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、regular and group convolutional channel pruning; 3、 group convolution structure; 4、batch-normalization fuse for quantization. deploy: tensorrt, fp32/fp16/int8(ptq-calibration)、op-adapt(upsample)、dynamic_shape

quantization pruning dorefa twn bnn xnor-net PyTorch model-compression group-convolution convolutional-networks quantization-aware-training post-training-quantization tensorrt onnx

Python

2257

478

5 个月前

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

PyTorch 深度学习 model-compression pruning model-converter quantization-aware-training 深度神经网络 post-training-quantization

Python

849

128

1 个月前

SqueezeAILab / SqueezeLLM

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

efficient-inference large-language-models 大语言模型 model-compression 自然语言处理 post-training-quantization quantization text-generation transformer llama localllm

Python

702

1 年前

Xiuyu-Li / q-diffusion

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

diffusion-models quantization PyTorch stable-diffusion model-compression post-training-quantization

Python

356

2 年前

megvii-research / FQ-ViT

[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

vision-transformer quantization post-training-quantization PyTorch imagenet

Python

350

2 年前

megvii-research / Sparsebit

A model compression and acceleration toolbox based on pytorch.

深度学习 post-training-quantization pruning quantization quantization-aware-training sparse tensorrt

Python

331

2 年前

sayakpaul / Adventures-in-TensorFlow-Lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

tensorflow-2 tensorflow-lite on-device-ml model-quantization post-training-quantization quantization-aware-training pruning inference

Jupyter Notebook

173

3 年前

Hsu1023 / DuQuant

[NeurIPS 2024 Oral🔥] DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs.

large-language-models 大语言模型 post-training-quantization quantization

Python

170

1 年前

ModelTC / TFMQ-DM

[CVPR 2024 Highlight & TPAMI 2025] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

diffusion-models post-training-quantization stable-diffusion cvpr cvpr2024 quantization highlight

Jupyter Notebook

104

6 天前