【海韵讲座】2026年第19期 数据智能前沿技术

发表时间:2026-05-25 编辑:陈 磊 来源: 浏览次数:

讲座日期 2026年6月7日(星期六)9:00-11:30 地点 厦门大学翔安校区西部片区1号楼108室
主讲人 范举,中国人民大学教授

报告题目1:数智融合的新型数据科学系统初探

主讲人:范举,中国人民大学教授

报告时间:2026年6月7日(星期六)9:00-9:30

报告地点:厦门大学翔安校区西部片区1号楼108室


报告题目2:云数仓智能负载管理二三事

主讲人:李环,浙江大学百人计划研究员

报告时间:2026年6月7日(星期六)9:30-10:00

报告地点:厦门大学翔安校区西部片区1号楼108室


报告题目3:数据库原生时序分析

主讲人:宋韶旭,清华大学软件学院副教授

报告时间:2026年6月7日(星期六)10:00-10:30

报告地点:厦门大学翔安校区西部片区1号楼108室


报告题目4:向量数据库meets理论计算机科学

主讲人:马恒钊,东北大学软件学院青年教师

报告时间:2026年6月7日(星期六)10:30-11:00

报告地点:厦门大学翔安校区西部片区1号楼108室


报告题目5:OceanBase Mercury: Building a Distributed Real-time Analytical Processing Database System

主讲人:徐泉清,蚂蚁技术研究院数据库实验室研究员、OceanBase技术总监

报告时间:2026年6月7日(星期六)11:00-11:30

报告地点:厦门大学翔安校区西部片区1号楼108室


报告题目1:数智融合的新型数据科学系统初探

报告摘要:数据科学系统的智能化水平与执行性能,直接影响着数据价值的释放效率。然而,长期以来,数据科学研究往往聚焦于数据准备、可视化、分析建模等单点问题的局部优化,缺乏系统性、通用性和流程闭环的整体考量。随着人工智能技术的迅猛发展,尤其是在推理大模型、多模态语义理解与智能体机制等方面的突破,数据科学正迎来系统范式变革的新机遇。本报告将探讨如何推进数据与智能的深度融合,以应对数据科学全流程在智能化、自动化与自适应方面所面临的关键挑战,并分享报告人近期在相关方向上的研究与实践进展。

报告人简介:范举,中国人民大学教授、博士生导师,国家级青年人才,现任中国计算机学会YOCSEF主席、数据库专业委员会与大数据专家委员会执行委员。长期围绕数据治理技术、智能数据系统等方向开展研究,相关成果在CCF-A类期刊和会议上发表论文70余篇,先后主持国家自然科学基金优青项目、重点项目、面上项目,以及CCF-华为胡杨林基金、CCF-腾讯犀牛鸟基金等多项产学研合作项目。获得ACM SIGMOD Research Highlight Award、ICDE 2025 Best Paper Runner-Up Award、ACM China Rising Star Award、宝钢优秀教师等奖励与荣誉。


报告题目2:云数仓智能负载管理二三事

报告摘要:Serverless(无服务器)架构赋予了云原生数仓极致弹性,但也使得海量复杂查询下的资源调度与成本控制成为严峻挑战。本报告聚焦无服务器云数仓环境下的性能、成本与稳定性博弈,分享我们在智能负载管理方向的近期探索“二三事”。首先,针对内存超载(OOM)引发的系统级风险,报告将介绍智能准入控制框架SafeLoad。该工作通过轻量级规则与混合预测模型,在极低开销下拦截异常查询,大幅降低计算资源的无效消耗;其次,为打破用户因担忧OOM而陷入的资源“过度配置陷阱”,我们将分享预测性弹性分配框架ScaleSense。该框架通过深度建模查询计划,预测多维物理资源消耗边界,在无服务器集群上实现了查询延迟与执行成本的动态帕累托权衡。最后,报告将结合为此开源的亿级真实工业数据集SafeBench,分享由阿里云真实业务痛点驱动学术研究应用的经验与反思。

报告人简介:李环,浙江大学百人计划研究员、博士生导师,曾任丹麦奥尔堡大学助理教授、瑞士EPFL访问学者。长期聚焦“资源高效、以数据为中心的人工智能方法和应用”,主要方向包括人工智能数据准备、大小模型高效推理与部署等,已在CCF-A等顶级会议发表高水平论文90余篇,获三项国际会议论文奖,成果被Informa、MarkTechPost等媒体报导。主持国家重点研发青年科学家项目1项、国自然项目2项、省重大项目1项及多项校企合作项目,研究成果应用于物联网、云计算、社会服务等领域。2020年获欧盟“玛丽·居里”独立研究基金、2022年入选国家级青年人才计划、2023年获启真优秀青年学者、2024年获ACM中国新星荣誉奖(全国3人)、SIGMOD中国新星奖。担任中国计算机学会数据库专委会执行委员,中国人工智能学会智能服务专委会委员。


报告题目3:数据库原生时序分析

报告摘要:时序数据库存储海量时间序列数据,广泛用于分析与决策支持。然而,时序数据中存在大量乱序、缺失、异常等问题,影响数据分析效果与效率。数据库原生时序分析,能够自动处理这些数据问题,有助于提升分析性能。Apache IoTDB构建了一整套数据库原生时序分析方案,包括可视分析、统计分析、数据挖掘、机器学习等方面。未来时序数据库将与时序大模型深度结合,进一步提升数据库原生时序分析能力与性能。

报告人简介:宋韶旭,清华大学软件学院副教授、博士生导师。从事时间序列数据库、数据质量、数据集成和数据挖掘方面的研究。主持多项国家自然科学基金项目、国家重大科技专项课题、国家重点研发计划项目课题。作为关键技术研发负责人,参与研制时序数据库Apache IoTDB和时序数据文件格式Apache TsFile。研究成果在CCF-A类期刊和会议上发表论文百余篇。


报告题目4:向量数据库meets理论计算机科学

报告摘要:近年来,向量数据库作为支撑跨模态搜索、检索增强生成、大模型记忆的核心基础设施,吸引了大量研究。业界普遍将其视为一个以性能优化为导向的工程实践问题,然而,在向量数据库的底层,隐藏着许多仅靠工程直觉难以触及的问题,需要严格的理论分析来揭示其难度边界。本次报告将从理论计算机科学的视角出发,探讨向量数据库中的一些重要问题,包括近似比与召回率的理论统一问题、索引剪枝的理论上界问题,异构向量数据库的数据传输复杂度问题等,希望能抛砖引玉,唤起更多研究者关注向量数据库背后的理论问题,推动向量数据库从理论和工程两方面取得更长足的发展。

报告人简介:马恒钊,博士,东北大学软件学院青年教师,中国计算机学会数据库专委、理论计算机科学专委、信息系统专委执行委员,于哈尔滨工业大学取得学士及博士学位。主持中国博士后科学基金面上项目1项,作为骨干成员参与国家自然科学基金重大项目、重点项目、面上项目,以及科技部重点研发项目、辽宁省重点研发项目等6项。近年来发表高水平学术论文10余篇,包括ICDE等数据库领域顶级国际会议,COCOON、JOCO、TCS等计算理论领域高水平国际会议及期刊论文6篇,并获得COCOON 2022会议最佳论文候选奖。


报告题目5:OceanBase Mercury: Building a Distributed Real-time Analytical Processing Database System

报告摘要:现代数据基础设施对能够高效管理海量数据集并提供实时事务处理和高级分析能力的数据库系统的需求日益增长,这已成为至关重要的挑战。传统的OLAP系统通常难以满足这些双重要求,而新兴的实时分析处理系统仍然面临着持续的挑战,例如数据冗余过多、跨系统同步复杂以及时间效率欠佳。我们提出了一种名为OceanBase Mercury的创新型OLAP系统,该系统专为PB级数据而设计。该系统采用分布式多租户架构,确保满足企业级的基本要求,包括持续可用性和弹性可扩展性。我们的技术贡献包括三个关键组件:(1) 具有混合数据布局优化的自适应列式存储格式;(2) 具有时间一致性保证的物化视图差异刷新机制;以及 (3) 支持三种不同数据格式的多态向量化引擎。在真实工作负载下的实证评估表明,OceanBase Mercury的性能优于专用OLAP引擎,查询延迟速度提升1.3倍至3.1倍,使其成为一款突破性的AP解决方案,能够在大数据环境中有效平衡分析深度和运营敏捷性。

报告人简介:徐泉清,北京大学计算机系博士毕业、正高级工程师、蚂蚁技术研究院数据库实验室研究员、OceanBase技术总监,目前从事OceanBase分布式数据库前沿技术研究工作,浙江省省级海外高层次人才、杭州市全球引才“521”计划高层次人才,研究领域包括数据库、AI和DB融合等。曾任新加坡科技研究局(ASTAR)科学家和新加坡理工大学兼职教师(Adjunct Faculty),被ASTAR评为研究生导师。先后在国际学术期刊和会议发表150多篇学术论文,曾获ICDE“最佳工业与应用论文亚军(Best Industry and Application Paper Runner Up)”等奖项,提交、授权专利150多件,担任VLDB、ICDE等学术会议的程序委员会委员,并作为多个标准工作组成员参与相关国际、国家标准的开发与维护。徐博士是国际工程与技术学会会士(IET Fellow)、CCF杰出会员和数据库专委会执行委员、ACM高级会员和IEEE高级会员。


邀请人:王哓黎 副院长