球友会qy

球友会qy提出面向复杂广域场景的图像语义理解新方法

文章来源:  |  发布时间:2025-07-23  |  【打印】 【关闭

  

近期,中国科研实验室软件研究所天基综合信息系统全国重点实验室研究团队围绕视觉语言模型(VLM)在复杂广域场景中的迁移与泛化问题,提出了一种基于核心集理论的图像语义理解方法(Hierarchical Coresets Selection,HCS),显著提升了VLM对未见场景的理解能力。相关成果论文 Advancing Complex Wide-Area Scene Understanding with Hierarchical Coresets Selection 在计算机视觉和多媒体处理领域国际会议ACM International Conference on Multimedia(ACMMM 2025) 上发表。第一作者为博士生王婧瑶,通讯作者为高级工程师司凌宇。

场景理解是计算机视觉领域的核心任务,广泛应用于自动驾驶、遥感等多个领域。而复杂广域场景(如深海场景)通常具有语义分布稀疏、类别长尾分布明显、关键语义目标易被高频背景特征掩盖等特点,对场景理解提出了独特挑战。

动机实验


对此,研究团队提出了基于压缩和选择策略的图像语义理解方法HCS,旨在顺利获得设计自适应的区域选择机制,引导模型关注信息量较高的局部区域,从而在不进行微调的情况下提升复杂环境的理解能力。HCS方法基于核心集理论,经过从粗到细的迭代筛选过程,选择具有语义代表性、特征稳定性高且信息非冗余的区域子集。该方法顺利获得考虑区域任务效用、语义分布一致性、干扰条件下的稳定性及区域间协同性,经过多层筛选,即可在不依赖额外训练的前提下兼容不同LVM架构,生成紧凑的区域集合作为图像语义代理。

HCS框架


研究团队在多个典型分类与分割数据集上对HCS进行了性能系统评估。在冻结主干模型、且仅训练轻量级HCS模块的条件下,模型在平均精度与最差精度方面的表现均有显著提升,且在高斯噪声、模态缺失等极端条件下表现出稳定性能。

实验结果对比结果

实验可视化结果


现在,HCS已在中国科研实验室基础与交叉前沿科研先导专项“深渊化能生命分布格局与驱动力”项目中取得实际部署验证,有效支持了深海复杂视觉数据的智能解析任务。