【海韵讲座】2026年第6期-人工智能基础设施研究与实践:算力调度、训推加速、自治数据基座及高性能超节点构建

发表时间:2026-03-24 编辑:陈 磊 来源: 浏览次数:

讲座日期 2026年3月31日(星期二)14:30-15:30 地点 厦大西部片区信息学院3号楼103会议室
主讲人 郑鹏飞博士,华为技术有限公司高级专家

报告题目:人工智能基础设施研究与实践:算力调度、训推加速、自治数据基座及高性能超节点构建

主讲人: 郑鹏飞博士,华为技术有限公司高级专家

报告时间:2026年3月31日(星期二)14:30-15:30

报告地点:厦大西部片区信息学院3号楼103会议室

讲座摘要:随着大模型与生成式人工智能的迅猛发展,人工智能基础设施正面临前所未有的性能、效率与可扩展性挑战。为支撑下一代AI应用的高效、稳定运行,本工作围绕相关技术开展了一系列具有理论与工程价值的研究及大规模实践验证。在算力统筹调度方面,将动态市场均衡理论引入集群调度器设计,解决了大规模AI训练平台中算力调度效率与公平性对齐的难题;同时,通过引入基于稀疏混合专家架构的调度Agent,并利用其遵循的Scaling Law所展现出的增强决策能力,实现了长时作业的最优调度与算力供给的连续性保障,推动算力统筹调度范式从“专家算法设计”向“Agent智能决策”演进。在分布式训推加速方面,建立了全维度并行策略自动寻优框架,以及模型语义驱动的动态并行、稀疏计算等技术,致力于提升AI加速器的有效利用率和分布式并行线性度,实现超大规模模型全流程训推加速。数据基座方面,通过研发无分布假设的黑盒优化引擎与因果学习架构,实现了数据系统的自治性能调优与智能化运维。高性能超节点架构设计上,针对基于Scale-up Fabric构建的统一内存池这一新兴硬件范式,提出融合网络与内存行为的细粒度仿真建模方法,精确刻画多处理器并发访存引发的流量竞争与尾部延迟,为内存密集型AI应用的超节点微架构设计与流控策略提供了理论基础与工程指导。这些技术成果已在多个国家级与企业级AI基础设施中得到规模化应用,有效支撑了大模型研发、推理服务与数据查询等关键业务场景,为构建高效、智能、自主可控的人工智能基础设施提供了坚实的技术支撑。

报告人简介:郑鹏飞,美国杜克大学(Duke University)计算机科学博士,华为技术有限公司高级专家、华为IT基础设施委员会专家委员。曾任美国威斯康星大学-麦迪逊分校(University of Wisconsin-Madison) Computing Innovation Fellow 特聘研究员(美国NSF国家级人才专项),并曾在美国Meta公司(Menlo Park硅谷总部)从事研究工作,归国后入选国家海外高层次人才(青年)。主要从事人工智能基础设施研究,相关成果已在华为多项核心产品中实现商业化落地与发布,包括昇腾AI推理引擎、昇腾AI开发套件、鲲鹏CPU加速库、鲲鹏CPU开发者套件、灵衢(UB)超节点等,并被国际主流开源大模型推理系统vLLM集成,服务含头部互联网、运营商、金融、政府、教育等多个行业在内的50余家境内标杆客户。2025 年荣获工信部“ICT 优秀案例”奖(国家级行业权威荣誉),2次获得华为计算领域最高个人荣誉“总裁个人奖”,4项核心专利获评华为高价值专利奖。留美期间,相关技术成果应用于美国Meta云数据中心、德克萨斯超级计算中心(TACC)等国际关键业务系统。近3年持续推动产业创新与学术研究深度融合,以第一/通讯作者(含共同)在 NSDI、SIGMOD、SC、DAC 、ICLR、AAAI等人工智能基础设施领域发表6篇顶级会议(CCF-A类)论文,实现产业与学术双向闭环,推动产学研生态协同建设与发展。

邀请人计算机科学与技术系 向乔 教授