大模型的创新不仅仅是模型自身的创新,更依赖于AI的各项根技术创新。华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台,以及异构计算架构CANN、全场景AI框架昇思MindSpore,AI开发生产线ModelArts等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的AI根技术,大模型训练效能可以调优到业界主流GPU的1.1倍。
算力是训练大模型的基础。在本次大会上,张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。同时,这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。
此外,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长,代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。
“为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界AI另一极,为所有AI开发者提供新的选择”,张平安表示。
此外,为了让企业在AI时代构筑更强的内容创新能力,华为云通过盘古基础大模型赋能MetaStudio数字内容生产线,打造了盘古数字人大模型,提供模型生成和模型驱动两大服务,并已经使用了20万小时音视频数据进行了预训练。基于这两大服务,开发者可以快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,让每个企业员工实现“数字人自由”。例如,用户只需在华为云MetaStudio的服务页面上传20秒的个人视频,就可以快速生成个性化的数字人讲解视频,过去3个研发人员3天完成的工作,现在只需要3分钟就可以完成。
算力是训练大模型的基础。在本次大会上,张平安宣布单集群2000P Flops算力的昇腾AI云服务在华为云的乌兰察布和贵安AI算力中心同时上线。昇腾AI云服务除了支持华为全场景AI框架昇思MindSpore外,还支持Pytorch、Tensorflow等主流AI框架。同时,这些框架中90%的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。
此外,在大模型训练过程中经常会遇到GPU故障,研发人员不得不经常重启训练,时间长,代价大。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。
“为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界AI另一极,为所有AI开发者提供新的选择”,张平安表示。
此外,为了让企业在AI时代构筑更强的内容创新能力,华为云通过盘古基础大模型赋能MetaStudio数字内容生产线,打造了盘古数字人大模型,提供模型生成和模型驱动两大服务,并已经使用了20万小时音视频数据进行了预训练。基于这两大服务,开发者可以快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,让每个企业员工实现“数字人自由”。例如,用户只需在华为云MetaStudio的服务页面上传20秒的个人视频,就可以快速生成个性化的数字人讲解视频,过去3个研发人员3天完成的工作,现在只需要3分钟就可以完成。