近日,厦门大学多媒体可信感知与高效计算教育部重点实验室在弱监督目标定位领域取得重要进展。由陈志威博士、曹刘娟教授(通讯作者)、张声传副教授、纪荣嵘教授与腾讯优图沈云航博士合作完成的论文“CLIP-Driven Transformer for Weakly Supervised Object Localization”被国际学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)正式录用。IEEE TPAMI是计算机科学和人工智能领域公认的顶级期刊之一,也是中国计算机学会推荐的A类期刊,2024年影响因子达20.8,在国际学术界享有广泛影响力。
弱监督目标定位旨在实现仅给定图像级标签的前提下学习一个目标定位器。针对目前基于Transformer架构的方法面临的语义偏移问题,本研究深入剖析了语义偏移的根本原因,将其归因于基类噪声和新类噪声。基于此,本研究设计了一种新型语义核,有效消除前期工作中不同模块间语义信息交互的鸿沟,显著提升了模型的语义一致性。此外,本研究基于CLIP大模型充分挖掘图像级标签的语义价值,使模型能够在复杂场景中精准感知特定目标,显著提高了目标定位的泛化能力。大量的实验表明,本研究在CUB-200-2011和ILSVRC数据集中表现优于最先进的弱监督定位方法,同时在医学图像和工业缺陷检测数据上的表现也进一步证明了其鲁棒性和广泛的应用潜力。
本研究在弱监督目标定位方向取得了重要突破,为Transformer在计算机视觉任务中的应用提供了新的思路和技术支撑,体现了团队在深度学习、计算机视觉与多模态语义理解领域的前沿研究实力和国际学术影响力。

算法框架示意图与可视化结果