科金社2025年11月30日 15:25消息,了解华为昇腾芯片,一文掌握其核心技术与应用。
最近这几年,网上关于华为昇腾的讨论持续升温,关注度不断攀升。 在当前科技竞争日益激烈的背景下,华为昇腾系列芯片的发展备受关注。作为国内自主可控计算技术的重要代表,昇腾不仅承载着华为在人工智能领域的战略布局,也反映了我国在高端芯片研发方面的持续突破。随着更多应用场景的拓展和生态系统的完善,昇腾的影响力正逐步扩大,成为行业内外热议的焦点。
我们经常说的昇腾,其实有两层定义。
一层是狭义的定义,特指华为昇腾芯片。
另一层含义是指围绕昇腾芯片构建的完整计算生态体系,涵盖硬件、软件、算法以及应用服务等多个层面。这一生态不仅体现了技术的深度整合,也反映了在人工智能领域持续深化布局的意图。昇腾芯片作为核心载体,正推动着从底层基础设施到上层应用的全面协同与创新。
今天这篇报道中,小枣君主要介绍昇腾芯片及其硬件体系。
昇腾(Ascend)芯片是华为旗下海思自主研发的专用NPU(神经网络处理单元)芯片,主要面向高性能人工智能计算领域。
当前,AI浪潮席卷各行各业,各大企业和机构纷纷布局AI大模型,推动AI应用在实际场景中的落地。这些工作需要强大的计算能力支持,尤其是在AI训练和推理环节,昇腾等高性能AI芯片正发挥着关键作用。 我认为,随着AI技术的不断深化,对算力的需求将持续增长,这将促使更多高性能芯片的研发与应用。昇腾等国产芯片的出现,不仅有助于提升我国在AI领域的自主可控能力,也为行业提供了更多元化的选择。未来,如何在技术创新与产业应用之间找到平衡,将是推动AI持续发展的关键。
昇腾的对标对象,毫无疑问就是英伟达的 GPU 系列。
由于众所周知的原因,英伟达的GPU已对我们实施禁售,目前甚至连经过调整的H20型号也不再向我们供货。在此背景下,昇腾作为国产AI芯片,发挥了重要的替代作用,并迎来了广阔的市场发展机遇。
昇腾芯片是一个庞大的系列,主要包含昇腾310和昇腾910两个子系列。
在 2018 年的华为全联接大会上,华为轮值 CEO 徐直军首次阐述了他们的 AI 战略,并正式公布了昇腾 910 和昇腾 310 两款 AI 芯片。当时,实体展示的,是昇腾 310。
一年后,2019 年 8 月,华为又正式推出了昇腾 910。
昇腾310是一款系统级芯片(SoC)小芯片,与手机中的芯片类似,体积仅有指甲盖大小,功耗仅为8W。
它包含了多个计算单元,包括8个ARMA55Core的CPU、AICore以及数字视觉预处理子系统等,主要应用于边缘计算和低功耗终端设备,主要用于执行人工智能推理任务。
AICore作为计算核心,搭载了华为自主研发的达芬奇(DaVinci)架构,能够高效执行矩阵、向量以及标量计算等复杂的算子任务。而CPU则主要处理非矩阵类的复杂计算任务。
根据海思官网的信息,昇腾310的FP16算力为8TOPS,INT8算力为16TOPS,其制造工艺为12nm。
昇腾910是一款体积接近掌心大小的大芯片,功耗超过300W,主要面向云端高性能计算场景。其算力表现出色,不仅适用于AI推理任务,也能够胜任AI训练任务,展现出强大的计算能力。这款芯片的推出,进一步推动了人工智能在云端的应用与发展,为行业提供了更高效、更灵活的计算解决方案。
华为早期发布的昇腾 910,其实应该算是 910A。
当时,因为华为还没有被完全禁售,所以 910A 仍然采用了台积电的 7nm 增强版 EUV 工艺。
芯片内置了32个达芬奇Max核心(达芬奇核心分为Max、Lite、Tiny三种,其中Max功能最完整),支持混合精度计算(包括FP16、FP32和INT8),FP16算力达到256TFLOPS,最大功耗为350W(最初宣称是350W,后来调整为310W)。
2020年华为被纳入实体清单后,无法再使用台积电的先进制程技术。为此,华为与中芯国际(SMIC)展开合作,采用其N1工艺(等效7nm制程),推出了麒麟910B芯片。
910B在架构设计上进行了优化,能效比得到提升。其芯片尺寸为21.32mm×31.22mm,FP16计算能力约为320TFLOPS,INT8计算能力约为640TOPS。显存容量为64GBHBM2e,显存带宽达到400GB/s。
910B系列也细分为B1、B2和B3版本。其中,910B3采用了HBM3e内存技术,带宽提升至1.2TB/s,支持万亿参数模型的训练。
最近这两年,华为又推出了昇腾 910C。
昇腾 910C 采用中芯国际的 7nm(N+2)工艺,晶体管数量达到 530 亿。
910C采用了与B200相似的双die封装方案,即将两颗独立的芯片die分别置于各自的中介层中,再通过有机基板将两个中介层进行连接。通过将两颗昇腾910B整合在一起,实现了性能的提升。
这种封装方式虽然在芯片间互联带宽上可能不如英伟达的先进封装方案,但具备更低的成本、更高的良率以及更快的量产速度,这在实际应用中具有显著优势。从产业发展的角度来看,成本控制和量产效率往往是推动技术普及的关键因素,尤其是在大规模应用的场景下,这些优势可能比单纯的性能指标更为重要。
业界估测,910C在FP16精度下的单卡算力约为800TFLOPS,大约是英伟达H100芯片(2022年推出)的80%。
值得一提的是,910C的芯片逻辑面积大约比H100大60%。这表明在架构效率和设计优化方面,910C与H100仍存在一定差距。
910C的高带宽内存(HBM)仍然来自海外厂商,国内DRAM制造商长鑫存储的HBM2e技术仍需一段时间才能实现突破。据悉,该芯片的整体国产化率已超过90%。
910C 的各方面参数以及进展信息都比较神秘。
据网络上流传的信息,910C芯片计划在2024年四季度推出样片,2025年一季度开始量产,目前正处于大规模出货阶段,预计全年销量将达到70至80万颗。这一时间节点的安排显示出相关企业对市场节奏的把控较为精准,同时也反映出该产品在供应链中的重要性。 从行业角度来看,若该芯片确实在2025年一季度实现量产,将对相关产业链产生积极影响。而当前的大规模出货也表明,该产品已具备一定的市场基础和生产能力,为后续的正式投产打下了良好基础。不过,由于信息来源不够权威,仍需进一步验证其准确性。
也有非官方消息透露,2024年910B的出货量约为四十万张,而今年910B的出货量可能与去年基本持平或略有下降,预计在三十万张左右。与此同时,910C的出货量有望突破四十万张。因此,华为今年910B与910C的总出货量可能在七十万到一百万张之间。
出货量与产能密切相关。中芯国际N2工艺去年的良率仅为20%,但今年 reportedly 已提升至40%-50%。目前分配给910C的产能约为2.6万片晶圆/月(数据来源不明确,仅供参考,与我无关)。 从当前行业发展趋势来看,中芯国际在N2工艺上的良率提升,意味着其在先进制程领域的技术能力正在逐步增强。尽管具体产能数据仍存在不确定性,但这一进展无疑为未来产品供应和市场竞争力提供了支撑。随着良率的持续改善,若产能能够稳定释放,将有助于进一步缓解国内高端芯片的供应压力。
价格方面,910B 的均价据说大约是 11 万 / 片,910C 可能是 18-20 万 / 片。网上很多文章说 910C 价格是 1800 美元,我觉得不靠谱。相比之下,英伟达 H100 的市场价格,大约是 2.5-3 万美元 / 张。
值得一提的是,华为近期发布的CloudMatrix384超节点,由384颗昇腾910C芯片组成,其系统性能超越了英伟达的GB200NVL72。
这属于典型的“群殴”模式。虽然单芯片的性能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。
在连接方面,需要提一下华为自研的 HCCS 高速互连接口。
昇腾 910 集成了 HCCS、PCIe 4.0 和 RoCE v2 接口,可以灵活高效地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。
HCCS对标的是英伟达的NVLink技术,能够实现内核、设备及集群对系统内存的一致性访问。在单一链路的单向或双向互联带宽方面,HCCS具备明显优势,有助于提升多块AI芯片协同训练的效率和性能。 从技术发展的角度来看,HCCS的推出标志着国内在高性能计算互连技术上取得了重要进展。相比NVLink,HCCS在带宽上的优化为大规模AI模型训练提供了更强大的支撑,尤其是在需要多芯片协同的场景中,其表现尤为突出。这种技术突破不仅提升了国产芯片的竞争力,也为未来人工智能的发展奠定了更坚实的基础。
据传,继910C之后,还会有910D芯片推出,采用5nm制程工艺,支持FP8,采用4Die封装设计。据悉,该芯片预计在2025年5月至6月完成回片,有望在2026年第二季度至第三季度实现大规模量产。不过,目前这一消息尚未得到官方确认,来源也存在不确定性,仅供读者参考。 从行业发展趋势来看,5nm制程的持续应用以及多Die封装技术的成熟,反映出芯片厂商在提升性能与能效方面的持续探索。而FP8的支持则可能意味着该芯片在人工智能、高性能计算等领域的应用潜力。尽管目前信息尚不明确,但若属实,这将标志着相关技术路线的进一步演进。对于市场而言,这类消息往往引发关注,但也需理性看待,避免过度炒作。
再往后,华为可能就会推出昇腾 920 系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。
哦,另外,差点忘记提到,华为除了昇腾310和昇腾910之外,还有一款昇腾610。
昇腾610,也被称为MDC610,是一款专为智能驾驶设计的芯片,应用于华为自有的智能驾驶平台(MDC)。据相关资料显示,昇腾610采用7nm制程工艺,AI算力达到200TOPS@INT8或100TFLOPS@FP16,目前己实现批量生产。
基于昇腾芯片,华为开发了 AI 算力板卡、服务器、集群等一系列硬件产品,如下图所示:
这些硬件涵盖了边缘推理、云端推理和云端训练三大应用场景,能够有效满足不同行业用户在人工智能计算方面的需求。从当前技术发展趋势来看,这种多场景覆盖的布局有助于提升AI应用的灵活性与效率,也反映出企业在推动AI落地过程中对多样化需求的深入理解与响应。
Atlas200IDKA2是一款面向开发者的高性能AI开发套件,搭载昇腾310芯片,配备2个AI Core,支持128位宽的LPDDR4X内存,最大算力达到22TOPS。该设备为开发者提供了强大的计算能力,有助于加速AI模型的训练与推理过程,提升开发效率。在当前AI技术快速发展的背景下,这类高算力、低功耗的开发工具对于推动技术创新具有重要意义。
Atlas300T训练卡采用昇腾910芯片,内置32个达芬奇AI核心和16个TaiShan核心,具备280TFLOPS FP16算力。该设备配备了一块100G RoCEv2网卡,支持PCIe 4.0以及1*100G RoCE高速接口。在内存配置上,提供了32GB的HBM和16GB的DDR4。 从技术角度来看,Atlas300T在算力与网络性能上的配置体现出其在AI训练场景中的高效性。尤其是HBM高速内存的引入,有助于提升数据吞吐效率,满足大规模模型训练的需求。同时,100G RoCEv2网络接口的加入,也表明该设备在分布式计算环境中具备良好的扩展性和协同能力。这样的硬件组合,为AI研究和应用提供了坚实的基础支撑。
Atlas 300T A2 训练卡,强化了高速接口和对 PCIe 5.0 的支持,集成 20 个 AI 核、8 个 CPU 核、1*200GE RoCE,提供 280TFLOPS FP16 算力。
Atlas 300I 推理卡,采用了 4 个昇腾 310,可以实现快速高效的推理计算、图像识别及视频处理等工作,支持多种规格的 H.264、H.265 视频编解码。
Atlas 300I Pro 推理卡,采用 24GB LPDDR4X,单卡最大提供 140TOPS INT8 算力。
Atlas 300I Duo 推理卡,采用 48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾 310 的组合产品,单卡最大提供 280TOPS INT8 算力。
Atlas 500 A2 智能小站,是面向边缘应用的产品。
Atlas 800训练服务器搭载了8颗昇腾910(NPU)芯片和4颗鲲鹏920(CPU),广泛用于深度学习模型的开发与训练。
Atlas800推理服务器最多可搭载8块Atlas300i推理卡,广泛应用于数据中心的AI推理场景。
Atlas900是阿里推出的智能计算集群,包含数千颗昇腾芯片,总算力达到256~1024PFLOPS@FP16,相当于50万台个人电脑的计算能力。
Atlas 900 智算集群
Atlas900集群由多个Atlas900 PoD基础单元构成。每个单元为一个机柜,内部配置超过32颗鲲鹏920处理器,47U高度的机柜最高可提供20.4PFLOPS@FP16的计算能力。该机柜采用液冷散热技术,最大功耗为46KW。
好啦,以上就是关于华为昇腾硬件体系的全部介绍。
欢迎纠错,也欢迎补充更多信息!谢谢!
参考资料:
1、《昇腾计算产业发展白皮书》,华为 & 信通院;
2、《昇腾发力铸造国产算力基石》,国投证券;
3、《昇腾万里,力算未来》,华安证券;
4、《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;
5、《华为昇腾服务器研究框架》,浙商证券;
6、《“鲲鹏”展翅,“昇腾”万里》,东莞证券;
7、科技分析师 Lennart Heim (@ohlennart) 在 X 平台发布的分析文章
8、《华为发布全球算力最强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;
9、《解读神秘的华为昇腾 910》,周博洋,知乎;
10、华为官网、华为云社区。
本文来自微信公众号:鲜枣课堂(ID:xzclasscom),作者:小枣君
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!