

6月7日,由中国计算机学会(CCF)主办,CCF数据库专业委员会承办的CCF数据库专业委员会“走进高校”系列活动在厦门大学翔安校区益海嘉里楼报告厅顺利举办。本次活动聚焦智能数据系统、云原生数据库、时序数据库、向量数据库与实时分析处理等热点方向,邀请了中国人民大学范举教授、浙江大学百人计划研究员李环、清华大学宋韶旭副教授、东北大学青年教师马恒钊,以及蚂蚁技术研究院数据库实验室研究员、OceanBase技术总监徐泉清作专题报告。西北工业大学李战怀教授、清华大学李国良教授、东北大学杨晓春教授、西北工业大学尚学群教授等专家学者出席活动。本次活动由厦门大学信息学院院长向乔教授主持。

中国人民大学范举教授以《数智融合的新型数据科学系统初探》为题展开分享。他指出,传统数据科学研究多聚焦单点优化,缺乏全流程的系统性设计。随着大模型、智能体等AI技术飞速发展,数据科学系统迎来范式变革。报告围绕数据与智能深度融合展开,剖析了数据科学全流程在智能化、自动化层面的核心挑战,并结合团队自研的DeepAnalyze、DeepPrep、DataEvolver等智能数据系统成果,展示了大模型驱动下端到端自主数据科学流水线的落地实践,为数智融合方向的研究提供了全新思路。

浙江大学百人计划研究员李环带来《云数仓智能负载管理二三事》主题报告。针对无服务器(Serverless)架构云数仓在海量复杂查询下内存溢出(OOM)、资源调度失衡、成本难以管控等痛点,团队自研了SafeLoad与ScaleSense两大核心框架。其中SafeLoad结合规则与机器学习,精准识别并调度内存超载查询;ScaleSense基于图神经网络与分位预测技术,实现查询性能与使用成本的动态帕累托权衡。同时,团队开源了亿级真实工业数据集SafeBench,为云数仓负载管理领域的学术研究与技术迭代提供了高质量数据支撑。

清华大学宋韶旭副教授分享了《时间序列数据分析》。时序数据库广泛应用于工业物联网场景,但乱序、缺失、异常等脏数据一直是分析效率的阻碍。报告系统介绍了IoTDB整套原生时序分析方案,覆盖可视分析、统计计算、数据挖掘、机器学习等能力。团队针对时序数据治理、高效采样、序列分解、频域变换等问题提出多项优化算法,并探索了时序数据库与时序大模型、时序RAG的结合路径,推动时序数据库向智能化方向持续升级。

东北大学马恒钊老师带来《向量数据库meets理论计算机科学》专题分享。当下向量数据库多侧重工程优化,底层理论研究相对薄弱。他从可计算性、计算复杂性、算法设计三大理论维度切入,围绕异构存储环境数据传输、近似最近邻检索(AkNN)、最大内积搜索(MIPS)三大核心问题展开讲解。团队提出2S-RATM、2S-PTM异构计算模型,以及全新树形索引 LRUS-CoverTree,在保证检索性能的同时,将索引构建时间降低一个数量级,证明了理论计算机科学对向量数据库性能突破的关键价值。

蚂蚁技术研究院研究员、OceanBase技术总监徐泉清以《OceanBase Mercury: Building a Distributed Real-time Analytical Processing Database System》为题,分享了分布式实时分析数据库的产业实践。传统OLAP系统存在数据冗余、跨系统同步复杂、查询效率低等问题,OceanBase Mercury采用分布式多租户架构,创新设计了混合列式存储、物化视图差异刷新、多态向量化引擎三大核心组件。实测数据显示,该系统查询延迟较主流专用OLAP引擎提升1.3-3.1倍,在读写混合负载场景下优势尤为显著,为PB级数据的实时事务与融合分析提供了成熟的企业级解决方案。
在互动环节,与会师生围绕报告内容积极交流探讨,现场氛围热烈。整场活动节奏紧凑、内容详实,学术理论与产业实践相辅相成。此次CCF数据库专委走进厦门大学活动,不仅促进了国内数据库领域前沿技术的传播,也加强了高校、科研机构与产业界的联动协作。
学院副院长曹刘娟、王晓黎同师生代表参加活动。
(信息学院)