Repository navigation

#

low-precision

Website
Wikipedia

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models gptq int8

Python

2473

280

20 小时前

Tiiiger / QPyTorch

Low Precision Arithmetic Simulation in PyTorch

low-precision learning

Python

282

77

1 年前

gudovskiy / ShiftCNN

A script to convert floating-point CNN models into generalized low-precision ShiftCNN representation

dnn cnn low-precision

Python

56

17

8 年前

sefaburakokcu / quantized-yolov5

Low Precision(quantized) Yolov5

fpga low-precision yolov5

Python

42

11

5 个月前

graphcore-research / jax-scalify

JAX Scalify: end-to-end scaled arithmetics

fp8 大语言模型 jax low-precision

Python

16

0

10 个月前

gudovskiy / fmap_compression

Code for DNN feature map compression paper

compression dnn caffe low-precision cnn

C++

11

3

7 年前

KernelTuner / kernel_float

CUDA/HIP header-only library for low-precision (16 bit, 8 bit) and vectorized GPU kernel development

bfloat16 CUDA floating-point gpu hip low-precision performance vectorization C++

C++

11

2

5 天前

AmanPriyanshu / LinearCosine

LinearCosine: Adding beats multiplying for lower-precision efficient cosine similarity

算法人工智能 benchmarking 机器视觉 cosine-similarity C++深度学习 energy-efficiency floating-point linear-algebra low-precision 机器学习 matrix-multiplication neural-networks 自然语言处理 optimization performance-optimization quantization

C++

0

0

10 个月前