Repository navigation

#

smoothquant

Website
Wikipedia

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models gptq int8

Python

2503

281

5 天前

ModelTC / LightCompress

A powerful toolkit for compressing large models including LLM, VLM, and video generation models.

部署大语言模型 pruning quantization 工具 benchmark evaluation large-language-models internlm2 smoothquant mixtral vllm deepseek-v3 wan

Python

578

63

1 个月前