从模仿到超越:摩尔线程以全功能gpu开启国产算力新征程-九游会j9登录入口

   时间:2025-12-22 16:33 作者:钟景轩

在摩尔线程举办的首届musa开发者大会(mdc 2025)上,创始人张建中携一系列重磅成果亮相,向行业展示了国产gpu在技术演进与生态建设上的全新突破。这场以“全功能gpu”为核心主题的发布会,不仅展现了摩尔线程从单点技术到系统级能力的跨越,更释放出国产算力基础设施迈向长期主义的明确信号。

张建中在演讲中强调,gpu的发展史本质是算力边界的持续拓展。从早期专注于图形渲染,到通过可编程能力演变为通用并行计算平台,再到如今成为ai时代的核心载体,gpu的每一次跃迁都源于对多样化计算需求的响应。随着生成式ai向具身智能、物理ai等新形态演进,未来五到十年,算力平台需同时具备计算、仿真、图形与感知能力,这决定了单一功能加速器无法满足需求。

全功能gpu的架构设计正是为此而生。其核心在于集成四大计算引擎:ai计算引擎支撑模型训练与推理,3d图形渲染引擎服务数字内容生产,高性能计算引擎赋能科学模拟,智能视频编解码引擎优化云端算力传输。这种“四引擎协同”的模式,使得单一硬件平台即可覆盖从云端训练到终端推理、从科学计算到数字孪生的全场景需求。

作为摩尔线程自主研发的元计算统一架构,musa在此次大会上升级至5.0版本,标志着其技术体系步入成熟阶段。新架构原生支持musa c编程语言,深度兼容tilelang、triton等国际主流语言,核心计算库mudnn的gemm与flashattention效率突破98%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。

更值得关注的是musa的生态开放战略。摩尔线程宣布将逐步开源计算加速库、通信库及系统管理框架等核心组件,并推出兼容跨代gpu指令的中间语言mtx、面向渲染 ai融合计算的mulang、量子计算框架musa-q等工具链。这一举措旨在构建“国际生态 国产生态”的双轮驱动模式,覆盖“云边端”全系列产品,为开发者提供统一软件栈支持。

基于musa体系,摩尔线程发布了新一代全功能gpu架构“花港”。该架构在计算密度、能效、精度支持与互联能力上实现全面突破:算力密度提升50%,支持从fp4到fp64的全精度计算;通过自研mtlink高速互联技术,可扩展至十万卡级智算集群;内置ai生成式渲染架构与硬件光追引擎,图形渲染性能较前代提升数倍。截至2025年6月,摩尔线程累计授权专利达514项,其中发明专利468项,为架构自主可控提供了坚实保障。

基于“花港”架构,摩尔线程规划了两款芯片:面向ai训推一体的“华山”系列与专注图形渲染的“庐山”系列。前者集成全精度张量计算单元,为万卡集群提供稳定算力;后者在几何处理、光线追踪等关键指标上实现64倍性能提升,可支持3a游戏与高端创作场景。这两款芯片的推出,标志着国产gpu在技术自研与场景覆盖上迈入新阶段。

大会现场,摩尔线程正式发布夸娥万卡智算集群,成为国产gpu在集群系统层面的首个标杆案例。该集群浮点运算能力达10exa-flops,在dense大模型训练中算力利用率(mfu)达60%,moe大模型达40%,训练线性扩展效率95%,且兼容国际主流生态。在推理侧,与硅基流动联合优化的mtt s5000单卡在deepseek r1 671b模型上实现prefill吞吐4000 tokens/s、decode吞吐1000 tokens/s,刷新国产推理性能纪录。

摩尔线程还预告了mtt c256超节点架构规划。该产品采用计算与交换一体化设计,旨在提升万卡集群的训练效能与推理密度,为下一代智算中心提供硬件基石。从单卡到集群,从性能追赶到系统优化,摩尔线程的路径选择,折射出国产gpu从“可用”向“好用”的关键转型。

这场发布会背后,是国产算力对长期主义的坚定选择。面对供应链不确定性、技术封锁与生态薄弱等挑战,摩尔线程选择以全功能gpu为支点,通过架构创新、生态开放与系统级优化,构建自主可控的算力基础设施。这条道路或许漫长,但至少从mdc 2025开始,国产gpu的演进逻辑已清晰可循——不再局限于参数竞争,而是以技术深度与生态广度,重新定义算力价值的边界。

 
 
更多>同类内容
推荐图文
推荐内容
点击排行
智快科技微信账号
itbear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群

网站地图