发布于 : Nov 05, 2025
Nov 2025
评估
英特尔的 AutoRound 是一种先进的量化算法,能够在几乎不损失精度的前提下压缩大型 AI 模型(如 LLM 和图文多模态模型)。它采用符号梯度下降优化,以及跨不同层的混合比特宽度方案,可将模型精度降至极低的 2–4 比特范围,从而实现最佳效率。AutoRound 的量化过程也非常迅速:在单块 GPU 上,仅需数分钟即可完成对 70 亿参数模型的量化。由于 AutoRound 能与 vLLM 和 Transformers 等主流推理引擎集成,所以成为模型量化的有吸引力方案。