昇腾910是一款具有超高算力的AI处理器,其最大功耗为310W,华为自研的达芬奇架构大大提升了其能效比。八位整数精度(INT8)下的性能达到640TOPS,16位浮点数(FP16)下的性能达到320 TFLOPS。
作为一款高集成度的片上系统(SoC),除了基于达芬奇架构的AI核外,昇腾910还集成了多个CPU、DVPP和任务调度器(Task Scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。
昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口,片内RoCE可用于节点间直接互联。最新的PCIe 4.0的吞吐量比上一代提升一倍。
实际测试结果表明,在算力方面,昇腾910完全达到了设计规格,即:半精度(FP16)算力达到256 Tera-FLOPS,整数精度(INT8)算力达到512 Tera-OPS;重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。
徐直军表示:昇腾910总体技术表现超出预期,作为算力最强AI处理器,当之无愧。我们已经把昇腾910用于实际AI训练任务。比如,在典型的ResNet50网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。
面向未来,针对不同的场景,包括边缘计算、自动驾驶车载计算、训练等场景,华为将持续投资,推出更多的AI处理器,面向全场景持续提供更充裕、更经济、更适配的AI算力。