昇腾ai开发者峰会在北京盛大举行,本次峰会以“一起昇腾 共绽光芒”为主题,吸引了全球众多开发者与行业专家齐聚一堂,共同探讨人工智能领域的前沿技术与发展趋势。峰会旨在汇聚全球创新力量,打造一场面向开发者的思想盛宴,推动人工智能技术的交流与进步。
华为公司fellow、半导体首席科学家廖恒在峰会上发表了重要演讲。他指出,随着agentic ai的迅猛发展,华为在ai基础设施层面已率先开启超节点时代。在面向预训练、推理prefill与decode等各类业务负载时,ai芯片的算力、内存带宽、内存容量、互联io带宽这四大核心指标,在不同应用场景下呈现出不同的优先级。其中,互联能力更是直接决定了超节点的性能上限。廖恒介绍,昇腾950芯片凭借其出色的互联能力,能够构建出更高带宽、更低延时且覆盖范围更广的超节点,系统综合性能与超节点规模和单芯片性能规格成正比。
在agent时代,moe模型推理对时延提出了极为严苛的要求,时延需压缩至10毫秒、5毫秒甚至1毫秒级别。廖恒分析,ep的dispatch-combine通信是制约时延的核心瓶颈。由于ep通信属于all-to-all这种多对多的细粒度通信,单数据包大小仅7kb至14kb,且数据包交互频次随专家数量呈平方级增长,传统网络架构难以承载,无法实现低时延传输。因此,他建议ep通信应在scale up域里完成。对于通信方式的选择,廖恒认为取决于通信的颗粒度:通信量小时,load&store内存语义优势明显;通信颗粒较大时,则建议使用dma,同时要避免多个网络流量路径重叠。
agentic ai的发展也给kv cache带来了巨大挑战。一方面,模型调用频次暴涨50至100倍;另一方面,序列长度从chatbot典型的4k序列长度增长至接近1兆,提升了250倍。受此影响,kv cache命中率突破95%。高命中率虽显著降低了prefill成本,但也导致kv cache成本等比例提升。为应对这一挑战,华为创新设计了搭载ub端口的ssu单元,通过直出接口接入ub网络。该架构精简了存储系统、文件系统以及从文件系统名字中间转换到ssd的逻辑扇区的转换过程,消除了原路径的诸多障碍,使npu能够直接命中ssu的kv cache,ssu再通过ub网络将数据传送到npu的片上内存,带宽至少提升一个数量级。
华为昇腾计算产品部部长周斌在峰会上围绕“围绕易用性持续提升,打造从好用到易用的昇腾算力底座”这一主题发表演讲。他从开发者视角全面介绍了昇腾软件易用性建设的最新成果,涵盖cann全面开源开放、兼容主流开源生态、mind系列软件升级并开源贡献三大方向,旨在持续降低开发门槛、提升开发效率,为ai开发者提供全流程高效开发体验。
cann作为昇腾软件底座与生态核心,已实现全面开源开放,为开发者提供了完整、高效、开放的算子开发体系。目前,cann已完成分层解耦与开源,开放了运行时、算子编译等全层级接口,算子与通信库支持独立升级,已开源50余个源码仓。在算子编程层面,昇腾针对不同开发者需求提供全栈支持:对于追求极致性能的工程师,提供ascend c、catlass模板库,支持对计算、访存、流水等关键环节进行细粒度控制,充分释放芯片性能;对于注重快速创新的ai算法工程师,支持tilelang、triton等主流tile编程生态,并推出pypto,以tensor抽象简化算法创新流程。为进一步降低开发门槛,昇腾全面拥抱python生态,推出pyasc、python版catlass模板库及pypto,让开发者能够以python友好方式实现底层并行与高性能算子开发。
昇腾还打造了cannbot算子智能体,将微架构优化经验融入skill技能库,支持ascend c、catlass、triton、tilelang、pypto等多种编程范式,覆盖算子开发全流程。基于cannbot,单个vector算子生成仅需3小时,从生成到部署全流程1天内即可完成,相比传统人工开发效率提升5倍以上。为助力业界agent与大模型适配昇腾算子,昇腾还量身打造了专属算子数据集与评测集:算子数据集覆盖vector、cube、cv融合算子数据,通过高质量样本与专业思维链帮助大模型理解算子写法;算子评测集提供分级评测体系,覆盖22类典型算子、内置4000 评测点,多维度评估算子生成的功能、精度与性能。
在兼容主流开源技术生态方面,昇腾以全面兼容主流开源生态为易用性改进的核心方向,让开发者无需改变使用习惯即可高效调用昇腾硬件能力。在算子编程层面,昇腾实现了triton和tilelang接口100%兼容,性能可达ascend c的0.6 - 0.9倍,开发周期缩短至一周,已支持超600个triton算子和300个tilelang算子,覆盖主流模型关键算子样例。北京大学计算机学院副研究员杨智提到,tilelang作为tile级编程框架,在deepseek v4的算子实践中表现出高开发效率与高性能,使昇腾能够全面支持deepseek v4推理,同时也证明了tilelang优秀的跨平台能力,developer模式下不同平台的算子仅有少量代码存在区别。未来,tilelang for ascend还有广阔的发展空间,如昇腾950的编程插件、torch.compile与graph优化、超节点统一编程等。
在ai框架方面,昇腾全面支持pytorch生态,实现2300多个api与社区对齐;图模式加速实现40 模型入图能力对齐,分布式加速实现20 主流大模型fsdp2开箱即用。训练加速方面,昇腾与8 强化学习社区建立合作,累计合入超万行代码。verl社区maintainer侯正罡介绍,verl社区与昇腾深度合作,基于昇腾软硬件实现fully async,并在基础架构上开展联合创新和回馈社区,使强化学习训练效率提升2倍以上。
在推理领域,昇腾全面适配llm、多模态等核心场景,作为vllm project唯一自主创新硬件厂商、sglang主仓唯一自主创新非gpu硬件厂商,原生合入主干代码并贡献关键特性,长序列场景首token时延降低30%,xllm框架也已原生支持昇腾。开源大模型推理引擎xllm负责人刘童璇分享道,xllm推理引擎如同操作系统般连接底层芯片与上层大模型应用,原生支持文本、图像、视频等全模态模型的推理加速,实现算力向模型智能高效转化。其架构深度适配昇腾超节点技术优势,推理性能出众;同时开源大模型服务核心组件,构筑从推理引擎到上层服务的完整技术栈。未来,xllm将紧跟技术趋势持续迭代架构,深度适配昇腾950超节点产品,立足al for system理念,从技术跟随迈向标准引领,打造面向未来的智能超级大脑。
在mind系列软件全面升级方面,mindspore面向超节点创新,进行组件化解耦,提升昇腾大模型图模式、分布式竞争力;mindspeed通过架构革新,解耦插件,灵活配合开源社区使用,快速使能昇腾算力;mindie系列软件栈全新升级,与生态充分融合,助力推理更快、更稳、更简单;mindstudio开源开放并搭载智能助手,全流程提升了开发调试效率。
为共建繁荣开源生态,昇腾全面升级了开发者使能计划。华为昇腾生态发展部部长张良在演讲中详细介绍了该计划,包括社区体验、开发工具、激励权益三大方向。面向社区,昇腾优化了环境准备、部署、资料检索等流程,实现一键自动部署,平均2分钟即可跑通首个demo。社区上线了1000 昇腾卡,为每一位开发者提供初始100卡时的免费算力,基于一站式开发平台即取即用;算子开发易用性提升,算子工程升级、开源昇腾skills仓库,助力开发者高效开发、调试;加强开源社区ci/cd建设及committer专家投入,提速开源贡献的验证及合入。面向开发工具,将数千名昇腾专家经验沉淀成skills,搭建agent工作流,提供全新agentic开发体验,开发者通过需求描述即可完成各类模型开发操作,大幅压缩开发周期,让新手也能轻松搞定复杂任务,加速创新想法落地。伴随基础软件全面开源,昇腾转向社区化运作,明确开发者成长与创新路径。设立首批创新激励基金,扶持算子、加速库等领域创新探索;投放10000卡算力资源,支撑开源社区研发运维与实操体验,充分保障开发者算力需求。
峰会现场还为杰出个人及团队颁发了“昇腾开源贡献杰出个人奖”及“昇腾开源合作杰出团队奖”,以表彰近一年来昇腾开发者在昇腾技术创新、技术生态发展中的突出表现。11名个人杰出贡献者获得“昇腾开源贡献杰出个人奖”荣誉,14个开源项目团队分别获得开源项目先锋团队奖、开源社区共建团队奖及ai4s生态贡献团队奖。















