【海韵讲座】2025年第10期 大语言模型应用开发平台Advancing a Development Platform for Large Language Model Applications
主讲人:王政,华为新加坡研究中心
报告时间:2025年4月18日(星期五)10:00-11:00
报告地点:厦门大学翔安校区信息学院3号楼3109
报告摘要:
大语言模型的快速发展为增强各领域的应用打开了新的可能。在此次报告中,我将介绍我们最近关于工业开发平台的研究,该平台利用预训练的大语言模型,结合以下关键能力(1)检索增强生成(2)多模态(3)任务规划,以创建用于多种应用的AI智能体,包括智能手机AI助手和搜索引擎等。在(1)中,我将详细介绍检索增强生成如何通过多分区范式检索相关信息来提升大语言模型性能,以及一个将检索增强生成与可编辑记忆图整合以开发个性化智能体的框架,从而增强AI助手的可用性和适应性。在(2)中,我将深入探讨多模态应用,例如基于用户查询图像生成查询建议,并在视频问答中应用协作提示进行持续学习。在(3)中,我将介绍一种新的方法,增强大语言模型作为复杂任务规划的智能体。这种方法通过从外部指令数据库检索过去的成功经验,解决了可扩展性和可转移性挑战。最后,我将概述未来的研究方向:个人大语言模型智能体,包括集成流数据以进行在线应用,以及探索大语言模型驱动的个性化多模态检索。通过这些讨论,我希望分享关于大语言模型技术最新进展的宝贵见解及其在实际产品和服务中驱动创新的潜力。
The rapid development of large language models (LLMs) has unlocked new possibilities for enhancing applications across various domains. In this talk, I will present our recent research on an industry development platform that leverages a pre-trained LLM, incorporating key capabilities such as (1) Retrieval-Augmented Generation (RAG), (2) multi-modality, and (3) task planning to create AI agents for a range of applications, including smartphone AI assistants and search engines. In (1), I will detail how RAG improves LLM performance by retrieving relevant information through a multi-partition paradigm, alongside a framework that integrates RAG with an Editable Memory Graph to develop personalized agents, thereby enhancing usability and adaptability for AI assistants. In (2), I will delve into multimodal applications, such as generating query suggestions based on user query images, and employing collaborative prompting for continual learning in Video Question Answering. In (3), I will introduce a novel approach that enhances LLMs as intelligent agents for complex task planning. This method addresses the challenges of enlargability and transferability by retrieving past successful experiences from an external instruction database. Finally, I will outline future research directions: Personal LLM Agents, including the integration of streaming data for online applications and the exploration of LLM-powered personalized multimodal retrieval. Through these discussions, I aim to share valuable insights into the latest advancements in LLM techniques and their potential to drive innovation in real-world products and services.

报告人简介:
王政现任华为新加坡研究中心首席研究员,华为天才少年。此前,他在新加坡南洋理工大学获得博士学位,师从龙成教授和丛高教授。他目前的研究兴趣集中于大语言模型(AI代理),包括检索增强生成、多模态和基于大语言模型的代理计划。在攻读博士期间,他专攻深度学习,重点研究数据管理和挖掘中的强化学习。他在AI和数据科学领域的顶级会议和期刊上发表了30多篇论文,多项研究成果应用于实际工业界产品中。他的研究成果获得了多项奖项,包括2025 ACM SIGSPATIAL空间数据智能新星学者,华为明日之星、新加坡南洋理工大学最佳博士论文奖、施密特学者、WAIC云帆奖(全球15人入选)、谷歌博士奖学金(数据科学领域亚洲唯一获奖者),以及AISG博士奖学金(南洋理工大学三位获奖者之一)。他担任SIGMOD、KDD、WWW、ACL、NeurIPS、ICML等顶会程序委员,并受邀审稿TKDE、VLDBJ等顶刊。同时,发起并主持ACM Multimedia的LGM3A研讨会及ICDM的BigIS研讨会。
邀请人:计算机科学与技术系 李晓东助理教授