# golden-stick **Repository Path**: mindspore/golden-stick ## Basic Information - **Project Name**: golden-stick - **Description**: MindSpore Golden Stick is a open source deep learning model compression algorithom framework. - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 60 - **Forks**: 85 - **Created**: 2022-04-20 - **Last Updated**: 2025-12-11 ## Categories & Tags **Categories**: machine-learning **Tags**: None ## README
# MindSpore Golden Stick **MindSpore Golden Stick 是MindSpore开源社区的模型压缩工具,支持在昇腾硬件上将Hugging Face的权重进行量化,并在[vLLM-MindSpore Plugin](https://gitee.com/mindspore/vllm-mindspore)或[MindSpore Transformers](https://gitee.com/mindspore/mindformers)上进行部署。** [![python](https://img.shields.io/badge/python-3.10%2B-blue)](https://gitee.com/mindspore/golden-stick) [![version](https://img.shields.io/badge/release-1.3.0-green)](https://gitee.com/mindspore/golden-stick/releases) [![license](https://img.shields.io/badge/license-Apache%202.0-blue)](https://gitee.com/mindspore/golden-stick/blob/master/LICENSE) [**架构**](docs/zh_cn/design.md)   |   [**流程**](docs/zh_cn/design.md)   |   [**文档**](https://www.mindspore.cn/golden_stick/docs/zh-CN/master/index.html)   |   [**问题反馈**](https://gitee.com/mindspore/golden-stick/issues) [English](README.md)   |   [中文](README_CN.md)
MindSpore Golden Stick(后面简称金箍棒)是MindSpore团队和华为诺亚团队联合设计开发的一个模型压缩工具。我们有两大目标:一是做一个模型压缩工具,提供简洁的接口以及丰富的算法库,以提升MindSpore网络的部署效率;二是做一个算法研究平台,提供灵活的配置接口和积木化的算法库,并支持快速自定义的框架,方便算法研究员快速实践创新。具体来说: - **多层级API**:提供不同level的API,兼顾易用性和灵活性,降低使用门槛,同时保留算法定制化的能力; - **丰富且模块化的算法库**:提供丰富的SoTA压缩算法,并且支持灵活模块化组合; - **高度可扩展的框架架构**:分层解耦,屏蔽硬件和框架的复杂性,同时支持集成自定义算法组件,配合灵活的API构建定制化压缩流水线。 ## 最新消息🔥 * [2025/09] OutlierSuppressionLite提供更高精度的A8W8量化能力。 * [2025/09] 结合OutlierSuppressionLite和GPTQ算法,实现DeepSeekV3/R1网络的A8W4量化,满血版DeepSeek部署门槛进一步降低。量化权重详见[魔乐社区权重](https://modelers.cn/models/MindSpore-Lab/R1-0528-A8W4)。 * [2025/09] 支持[Transformers-Like-API](https://www.mindspore.cn/golden_stick/docs/zh-CN/master/ptq/mindspore_gs.ptq.AutoQuantForCausalLM.html#mindspore_gs.ptq.AutoQuantForCausalLM),并支持保存出huggingface格式的权重,详见 [BaseQuantForCausalLM](https://www.mindspore.cn/golden_stick/docs/zh-CN/master/ptq/mindspore_gs.ptq.BaseQuantForCausalLM.html#mindspore_gs.ptq.BaseQuantForCausalLM.save_quantized) 接口。 * [2025/06] 支持对DeepSeekV3/R1网络进行SmoothQuant-8bit、GPTQ-4bit量化。 ## 安装 请参考[安装教程](docs/zh_cn/install.md)。 ## 快速入门 以一个简单的算法[Simulated Quantization (SimQAT)](mindspore_gs/quantization/simulated_quantization/README_CN.md) 作为例子,演示如何在训练中应用金箍棒中的算法。 ## 文档
概览
架构 流程 样例
Transformers like APIs🔥 APIs
训练后量化
RoundToNearest-A16W8 SmoothQuant-A8W8 AWQ-A16W4 GPTQ-A16W4
QoQ-A8W4🔥 FAQuant(demo) Dynamic Quantization KVCacheInt8
OutlierSuppressionLite🔥 OutlierSuppressionPlus(demo)
其他
自动策略搜优 伪量化评测 昇腾硬件适配层
生命周期终止
QAT-SimQAT QAT-SLB
pruner-SCOP pruner-uni_pruning(demo) pruner-LRP(demo)
Ghost
### 模型部署 金箍棒模型压缩得到的是Hugging Face格式的权重,推荐在[vLLM-MindSpore Plugin](https://gitee.com/mindspore/vllm-mindspore)或者[MindSpore Transformers](https://gitee.com/mindspore/mindformers)上进行部署,也可以尝试在Pytorch、ONNX Runtime、TensorRT等主流框架上进行部署。 ## 社区 ### 治理 查看MindSpore如何进行[开放治理](https://gitee.com/mindspore/community/blob/master/governance.md)。 ### 交流 🎯视频会议:https://meeting.tencent.com/dm/U5EJCKl1FP8z 📬SIG:https://www.mindspore.cn/sig/LLM%20Inference%20Serving 📍微信群:https://gitee.com/mindspore/golden-stick/issues/ID2UGQ ## 贡献 请参考 [CONTRIBUTING](./CONTRIBUTING_CN.md) 文档了解更多关于开发环境搭建、功能测试以及 PR 提交规范的信息。 我们欢迎并重视任何形式的贡献与合作,请通过 [Issue](https://gitee.com/mindspore/golden-stick/issues) 来告知我们您遇到的任何Bug,或提交您的特性需求、改进建议、技术方案。 ## 许可证 [Apache License 2.0](https://gitee.com/mindspore/golden-stick/blob/master/LICENSE)