大模型学习和泛化能力持续增强,促使推理应用快速增长。今年,全球AI应用活跃用户数量已从21年的1800万飙升至2.3亿,其中个人及企业级付费用户比例达15%,AI应用已逐步探索出多种商业模式。伴随AI Agent、RAG、SFT等技术发展,大模型准确度可达90%以上,促进了AI与业务的融合。在互联网、金融等数字化转型水平较高的行业,AI渗透率已超过30%。
在今天发布的《昇腾在金融行业的应用与生态白皮书》中可以看到,大模型已经渗透到金融业务全流程,从客服助手、开发助手、问答助手等通用场景逐渐深入到信贷助手等核心生产场景,全面提升金融服务质量和效率。
通过AI,我们正在创造能够增强和延展人类的技能。未来,AI+3D打印能够增强设计能力,促使3D打印设备走入千家万户;自动驾驶技术能够增强出行能力,催生新的商业模式和产业生态;具身智能技术将增强制造和服务能力,让创造人人可及。根据预测,到2030年,AI将带动超过万亿的产业空间,未来充满着无限的想象。
相信大家都有同感,AI技术的进步速度远超以往任何一项技术。大模型技术快速发展,模型能力将由传统的数据驱动转变为算力驱动,这对算力提出了更高要求,需要突破大带宽高效互联、计算融合与并行、高负荷稳定运行等挑战,来提升有效算力,持续满足未来训练算力需求。
而伴随着模型能力的展现,推理应用也从记忆生成走向了思考、理解、推理。OpenAI o1基于思维链CoT、Token级别奖励强化学习等新技术,让AI展现“理科生”的逻辑推理能力,而新技术中更多的Token处理也带来更多的计算和内存需求,抬高模型的推理成本。我们需要通过算力的弹性扩容满足模型规模演进;通过计算、内存均衡技术提升有效吞吐;通过开发经验沉淀提升应用上线速度,降低每Token的推理成本。
图1:华为昇腾计算业务总裁张迪煊
得力于大家的支持,昇腾AI产业经过几年发展,已经累计培养310万+昇腾开发者。今年3月份,在华为中国合作伙伴大会上,华为发布昇腾原生开发战略,呼吁更多原生力量加入;5月份,我们对CANN的算子开发接口、集合通信库、GE图引擎等进行深度开放,为开发者提供丰富灵活的原生开发工具;7月份,昇腾围绕基础软硬件及生态体系进行全面升级,推进AI创新落地。
到目前为止,昇腾已经累计培养3万+原生贡献者,20+伙伴及客户原生打造100+核心大算子、孵化了40+原生大模型,以及50+大模型应用,昇腾生态已经走向原生驱动。这一切都离不开每一位客户、伙伴及开发者的共同努力,感谢大家的一路同行。昇腾AI将坚持围绕基础软硬件、训推解决方案持续迭代,做深技术根基,以原生技术促进原生生态,通过原生战略,加速技术和商业生态的循环发展。
训练系统要充分发挥有效算力,训练性能、稳定性和开发成本是关键。昇腾训练解决方案始终围绕“高性能、高可用、高易用”持续创新,满足大模型训练算力的增长需求。
在训练性能上,为了充分利用超节点TB级带宽资源,我们独创了NB2.0通信算法,基于模型的分布式并行策略,在硬件层面自适应进行通信域优化。通过细粒度划分,减少通信步数,将带宽利用率从40%提升到了60%以上,通信算子的执行耗时减少40%以上。
图2:昇腾AI坚持围绕原生,技术快速迭代,生态稳健发展
在训练稳定性上,昇腾基于CCAE集群自智系统的全域统管能力,在训练前,提供健康状态检测和预防性维护,确保训练启动时处于最佳状态;在训练中,支持400+典型故障的动态检测和隔离,做到早发现,早处理;在故障发生后,通过断点续训能力快速恢复训练任务。同时,昇腾实现了业界先进的Step级CKPT保存技术。过去,我们只能手动设置CKPT保存周期进行关键数据备份,任务重启后将回滚到故障前最近一次的检查点上,带来小时级的损失。现在,通过Step级的CKPT热备份能力,任务可恢复到最近的训练Step,回滚损失降低到分钟级。同时任务重启范围也从进程级细粒度至Step级,万亿模型训练任务可以做到分钟级续训,保障大规模集群下的月级稳定训练。
在模型开发能力上,MindSpore持续提升动静统一能力,以1套API使能2种模式开发,让开发者忽略动静态图开发差异,小时级编码。通过编译选项,实现动/静态执行模式灵活选择。
大模型技术的每一次迭代,都需要新的加速算法将模型架构与硬件架构相结合,充分利用每一块计算、内存及通信资源,发挥硬件极致性能,持续提升有效算力。面向训练加速,我们正式发布昇腾分布式加速套件MindSpeed 1.0,提供100+预置模型、60+加速算法及算子、10余种微调算法,降低从预训练到增量训练的分布式开发成本,加速模型迭代。
在多模态、MoE混合架构及超长序列的新场景下,MindSpeed提供了业界领先的分布式加速算法,将训练性能提升30%以上。
在多模态模型加速中,传统算法下,不同模态数据负载不均会导致层间计算相互等待,MindSpeed独创多模态负载均衡流水并行算法,通过虚拟流水技术,支持自定义调整多模态分层,降低计算空泡率,整网性能提升10%。
在MoE混合架构中,由于输入数据量差异导致专家模块内存负载不均,训练早期极易出现Out of Memory问题,导致训练中断。MindSpeed提供了独有的基于负载感知的内存均衡算法,动态检测内存过载并自动触发重计算,将训练峰值内存降低10%以上,避免内存过载导致的训练中断问题。
在长序列加速上,提供Ulysses和Ring Attention混合并行算法,提升跨节点上下文并行的通信效率,业界首创的掩码压缩方案,缓解了Ulysses方案中最大并行维度受注意力头数限制的问题,突破百万并行序列长度,支持长序列演进。
MindSpeed支持直接调用以及二次开发,使能客户基于业务模型结构及设备规模开展深入优化,欢迎大家加入MindSpeed Gitee项目下载使用,提供宝贵意见。
推理应用是人工智能释放价值的关键,为了更好地匹配大模型应用演进趋势,昇腾推理解决方案秉承开放、快速部署、极致性能的原则,在有效吞吐、服务化和算力部署等能力上持续演进,实现更高的AI落地经济性。
首先,为了获得最优吞吐,我们提供包含PD分离在内的业界领先的推理加速技术,充分利用设备资源,降低企业部署成本;同时,通过训推同架构的算子和模型支持,实现“零”算子适配开发,小时级完成模型从训练到推理的转换。通过服务层支持多框架适配,实现推理应用天级上线;在算力部署上,我们提供单机和多机推理的软硬件部署能力,客户可以结合业务场景灵活选择。同时,面向未来万亿参数、百万级长序列的需求,我们将打造领先的胖节点技术,在和客户、伙伴的合作中,持续升级推理解决方案。
推理引擎MindIE自今年3月发布以来,始终关注客户、伙伴及开发者的反馈并持续演进,加速创新落地。PD分离技术是目前业界争相追逐的提升大模型有效吞吐的关键能力。常规PD混合部署中,两种资源比例固定,不能最佳适配业务实际需求,造成资源浪费,吞吐下降。MindIE不仅支持固定配比PD分离SetPD,还提供了业界领先的自适应PD分离技术AutoPD,能够感知业务流量变化,按需调整PD节点比例,满足不同batch规模、序列长度下的灵活部署需求,充分发挥昇腾大算力优势和内存资源池平台化能力,最大提高资源利用率,将推理吞吐性能提升50%以上。
在应用场景开发能力上,围绕多模态理解和视频生成两大新场景我们还提供了套件支持。基于MindIE提供的多模态模型推理软件栈,在预处理、推理执行及后处理阶段,可以获得诸如模态Token化、编码、自回归等核心功能接口支持,帮助开发者快速完成文本、图片、视频、语音的全模态交互及内容理解和生成,加速多模态、DiT和类Sora模型应用的部署与执行。
未来MindIE将持续演进,面向万亿MoE推理、百万超长序列、长视频长语音交互等场景,围绕推理加速技术、开放易用持续构建能力。
大模型从训练开发到推理部署,每一步都需要工具支撑。为此,昇腾构建极简易用的全流程工具链,让整个流程更加便捷高效。
算子是模型创新的基础,每一次模型架构和技术的迭代都带动着算子的变化。昇腾在Ascend C算子编程语言基础上提供了从算子工程到调试调优的全流程工具,通过编译优化、内存异常自动检测、可视化指令流水等能力,持续缩短算子开发周期。
在模型训练过程中,性能调优是关键环节,提升系统资源利用率尤为重要。为此,MindStudio提供了集群性能数据分析及调试调优能力,如算子瓶颈分析、内存占用统计、慢卡-慢链路可视化等功能。在互联网等重要客户合作中,实现慢卡、慢链路等典型问题快速定位。故障模式库已知问题,实现分钟级诊断。
大模型小型化部署是推理落地的关键一步。MindStudio提供大模型稀疏量化能力,支持权重、激活、KVCache量化能力,模型压缩2~4倍,同时支持自动识别精度敏感层,提供自动回退、自适应参数配置等能力,天级完成量化精度调优。借助该能力,LLaMA3.1-13B模型权重可压缩3.5倍,精度丢失小于0.05%,支持业务应用快速落地。
发展生态一直是昇腾AI的战略,我们坚定围绕原生,以基础软硬件为技术锚点激发原生创新,同时为伙伴及开发者提供算力、NRE、MDF及社区贡献等权益激励,促进商业共赢:在基于昇腾开展的原生开发、生态适配、技术迁移、价值创新等活动中,伙伴可以获得昇腾算力激励以及NRE开发激励;围绕昇腾原生孵化的产品及解决方案,在营销、品牌赞助、培训赋能等活动中,伙伴可以获得MDF激励;同时,我们鼓励伙伴将研究与创新中孵化的算子、模型及加速库等成果贡献至社区,获得社区贡献激励。
在原生技术与权益激励的相互促进之下,相信昇腾原生生态将获得源源不断的创新动力。
智能化已经开启新篇章,大时代将迎来新机遇。昇腾,一直是千行万业智能化道路上的坚实伙伴,为企业提供创新动力。让我们携手奋进,迎接变化,创造可能,共同迈向数智未来!