PyTorch模型量化工具学习
![](https://filescdn.proginn.com/26dfbfa975282c6fdcd2dfc30595dea9/63a2037393b185431c6a42b5934ed61b.webp)
极市导读
通过减少原始模型参数的数量或比特数,模型量化技术能降低深度学习对内存和计算的需求。本文主要介绍了这种量化技术的方法、流程和工具,并预测了数个有潜力的研究方向。
应用范围
weight的8 bit量化 :data_type = qint8,数据范围为[-128, 127] activation的8 bit量化:data_type = quint8,数据范围为[0, 255]
具有 AVX2 支持或更高版本的 x86 CPU:fbgemm ARM CPU:qnnpack
q_backend = "qnnpack" # qnnpack or fbgemm
torch.backends.quantized.engine = q_backend
qconfig = torch.quantization.get_default_qconfig(q_backend)
QConfig(activation=functools.partial(
, reduce_range=False), weight=functools.partial(
, dtype=torch.qint8, qscheme=torch.per_tensor_symmetric))
量化方法
量化流程
![](https://filescdn.proginn.com/a16985b45b6485d49690c23ed6119c55/261cb05fab9ac003bae761526b4f7408.webp)
量化工具
Quantization-Aware Training相关模块
总结
推荐阅读
![](https://filescdn.proginn.com/d789c261cc5f2a0c78e0960ad4207302/9c1d037998778851a584729e2c83a31d.webp)
评论