浪潮信息发布源2.0-M32 4bit/8bit量化版：算力效率再升级~~_算力吧

算力吧关注：1,639贴子：6,436

1回复贴，共1页

浪潮信息发布源2.0-M32 4bit/8bit量化版：算力效率再升级~~

近期，浪潮信息发布了源2.0-M32大模型的4bit与8bit量化版本，该量化版本在性能上能够媲美拥有700亿参数的LLaMA3开源大模型。其中4bit量化版在推理运行时，其显存仅需23.27GB，而处理每token所需的算力更是低至约1.9 GFLOPs。这一突破性进展意味着用户可以在更低的计算资源条件下，享受到与大型语言模型同等的高性能服务。

送TA礼物

IP属地:湖北

1楼2024-09-29 22:43回复

源2.0-M32量化版是“源”大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛，让用户使用更少的计算资源，就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本，其创新性地提出和采用了“基于注意力机制的门控网络”技术，构建包含32个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为37亿，在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型，大幅提升了模型算力效率。
模型量化（Model Quantization）是优化大模型推理的一种主流技术，它显著减少了模型的内存占用和计算资源消耗，从而加速推理过程。然而，模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度，是量化技术面临的核心挑战。

IP属地:湖北

2楼2024-09-29 22:54

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1回复贴，共1页

<返回算力吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

浪潮信息发布源2.0-M32 4bit/8bit量化版：算力效率再升级~~

登录百度账号

扫二维码下载贴吧客户端