中国联通实现全球最长距离大模型异构混训,跨域超1500公里,算力损失不足5%。
在2025中国联通合作伙伴大会期间,中国联通研究院携手上海人工智能实验室等合作伙伴,于7月19日成功发布了全球最长距离大模型异构混训试验成果,标志着我国在人工智能领域又取得重要进展。这一成果不仅体现了技术上的突破,也展示了多方协作在推动前沿科技发展中的重要作用。随着大模型训练规模的不断扩大,如何实现高效、稳定的分布式训练成为关键挑战,此次试验的成功为未来更大规模的模型训练提供了宝贵经验与技术支撑。
随着人工智能技术的迅猛发展,大模型时代正加速到来,这对模型训练所需的算力基础设施在吞吐量、延迟和性能方面提出了更高要求。然而,当前算力资源呈现出异构化和多中心化的趋势,面临跨域资源互联互通机制不完善、长距离传输存在带宽和时延瓶颈、异构资源统一调度与高效融合能力不足等挑战。
在此背景下,中国联通携手上海人工智能实验室、阿里云、浪潮、基流科技、加佳科技等行业合作伙伴,面向国产异构GPU环境,针对超大模型跨域训练及碎片化算力整合的需求,依托“算力智联网AINet”的长距无损传输技术优势,结合上海人工智能实验室的“DeepLink”超大规模跨域混训技术方案,在上海临港与山东济南鲍山数据中心之间搭建了一条超过1500公里的跨域异构混训系统。
从大会获悉,通过自动调整多种并行策略和跨域收敛比,联合团队完成了超1500公里跨域的千亿参数AI大模型异构混训试验,成功实现了MoE模型与Dense模型的参数配置优化。试验结果表明,等效算力可达单芯片单集群等效算力的95%以上,标志着我国在大规模分布式训练技术方面取得了重要进展。 这一成果不仅体现了我国在人工智能基础设施建设上的实力,也展现了在异构计算环境下的高效协同能力。随着跨域训练技术的不断成熟,未来有望在更大规模、更复杂场景下实现更高效的模型训练,为推动AI技术的广泛应用奠定坚实基础。
在算力互联层面,采用联通自研内置长距 RDMA 协议栈的 RoCE 交换机,兼顾 DC 内和 DC 间高性能网络需求;
在算力调度与资源管理方面,依托联通“智驭”平台,实现对跨域网络和集群的集中管控与任务统一调度;
在算力协同方面,依托DeepLink技术,在训练加速、异构通信和并行策略等核心领域取得突破,实现了在超长距离异构GPU环境下对千亿参数大模型的高效训练。
中国联通表示,此次成果标志着其在算力基础设施跨区域协同调度、异构资源整合以及高性能分布式训练等核心技术领域取得了实质性进展,为未来互联网产业的发展奠定了坚实基础。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!