
学位论文简介
多模态理解与人机交互是感知智能向认知智能跨越的关键基础能力。现有图像与视频理解方法多以单模态、单任务为主,缺乏对用户意图的显式建模,导致生成结果存在目标指向性弱、可控性不足及掩码与描述不协同等问题。为解决多类型交互提示编码不统一、高层意图与底层感知存在语义鸿沟、以及复杂场景时空关系建模缺失等挑战,本文聚焦视觉提示引导机制,研究面向用户意图驱动的可控多模态协同理解范式,主要创新性研究成果如下:
提出视觉提示统一编码的交互式图像分割框架。针对交互式分割中点、框、涂鸦等异构视觉提示表征不统一的问题,提出了基于概率建模的统一编码框架(PVPUFormer),通过将离散提示映射至连续特征空间,显著提升了模型对用户意图的捕捉以及有效信息的利用。
提出基于扩散网络的可控性图像协同分割与理解框架。针对极简提示下意图捕捉难及输出不协同的问题,利用场景图自适应适配器将局部提示转化为结构化意图表征,并构建场景图引导的双模态扩散过程与多实体对比学习损失,确保了生成的掩码与语义描述在逻辑上高度一致。
提出基于语义关系一致性学习的遥感图像多模态协同理解框架。针对遥感场景地物高相似性与复杂拓扑关系,设计了上下文感知掩码解码器与跨模态关系一致性对齐模块,通过显式建模地理空间目标的空间拓扑规律,有效克服了遥感理解中的目标混淆与关系错位挑战。
提出基于场景图引导的可控性视频协同分割与理解模型。针对视频序列中意图动态追踪与时空对齐的难题,设计了提示引导的时空图Transformer与细粒度掩码-语言解码器,通过利用时空场景图建模与多实体对比学习,确保了动态演化过程中视觉轨迹与语义叙事的高度协同。
主要学术成果
Xu Zhang, Kailun Yang, Jiacheng Lin, Jin Yuan, Zhiyong Li, Shutao Li. PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation[J]. IEEE Transactions on Image Processing, 2024, 33: 6455-6468. (SCI 一区, CCF-A期刊, 第一作者)
Xu Zhang, Jin Yuan, Hanwang Zhang, Guojin Zhong, Yongsheng Zang, Jiacheng Lin, Zhiyong Li. SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2025, 39(10): 10257-10265. (EI, CCF-A会议, 第一作者)
Xu Zhang, Jiabin Fang, Zhuoming Ding, Jin Yuan, Xuan Liu, Qianjun Zhang, Zhiyong Li. Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2026, 64. (SCI 一区, CCF-B期刊, 第一作者)
Xu Zhang, Jin Yuan, BinHong Yang, Xuan Liu, Qianjun Zhang, Yuyi Wang, Zhiyong Li, Hanwang Zhang. Scene Graph-guided SegCaptioning Transformer with Fine-grained Alignment for Controllable Video Segmentation and Captioning[J]. IEEE Transactions on Image Processing. (CCF-A期刊, 共同第一作者, 大修)
Xu Zhang, Jie Liao, Jiangbo Li, Zhuoming Ding, Jin Yuan, Qianjun Zhang. MLLM-guided Visible-Event Motion Object Detection with Motion Discriminative Learning[C]. 34th ACM International Conference on Multimedia. (CCF-A会议, 共同第一作者, 在审)