(一)
菠菜导航2023级博士生张泽帆的论文“Video-Level Multimodal Relation Extraction with Event-Entity Semantic Consistency” 被CCF A类会议ACM MM 2025录用。论文第一作者为白天教授指导的2023级博士生张泽帆,白天教授为通讯作者。
以往对多模态关系抽取的研究主要集中于利用图像中静态视觉线索增强文本实体关系识别,并广泛应用于多媒体分析与知识图谱等领域。然而,随着社交媒体平台上视频内容的迅猛增长,传统多模态关系抽取系统面临着新的挑战。为此,我们提出了一个新任务-视频级多模态关系抽取(Video-level Multimodal Relation Extraction, VMRE),旨在从视频中抽取关系事实。为推动该方向的研究,我们构建了全新数据集 Vid-MRE,涵盖 32 种关系类型 和 12,402 条多模态关系事实,这些标注数据来自 3,970 对新闻标题与对应视频。由于该任务需要精准定位事件与实体,以过滤视频中的大量噪声,我们提出了一个事件-实体语义一致性网络(Event-Entity Semantic Consistency Network, E2SCN)模型,用于有效捕捉视频中的关系线索。实验结果表明,融入视频模态能够显著提升关系识别性能,但同时也带来更多噪声。我们的方法 E2SCN 能够有效降低这类噪声,提升多模态下事件与实体的精细对齐能力,并在多个评估指标上实现了最新的SOTA 性能。
(二)
菠菜导航2023级博士生吴寒冰等的论文“PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction” 被CCF A类会议ACM MM 2025录用。论文的第一作者是李慧盈副教授指导的2023级博士生吴寒冰,通讯作者为李慧盈副教授。
视觉选择性注意受个体偏好驱动,通过将主观认知机制与客观视觉元素相结合,调控人类对视觉刺激的优先处理,从而引导动态视觉场景的语义理解与层级加工。然而,现有模型与数据集普遍忽视了主观认知差异对注视行为的影响。传统的显著性预测模型通常采用分割方法,基于低分辨率图像生成显著性热图,再上采样至原始分辨率,这在很大程度上限制了其捕捉个性化注意模式的能力。此外,多模态大模型(MLLMs)存在幻觉等问题,使其在多点预测等任务中难以严格遵循预期格式,且实现高精度点位定位仍面临较大挑战。为解决上述问题,我们提出了 SPA-ADV(Subjective Personalized Attention for Advertisement Videos),这是一个大规模多模态数据集,涵盖来自不同年龄与性别的4500多名参与者在观看486个广告视频过程中的注视行为记录。此外,我们提出了一种全新的眼动显著性预测模型 PRE-MAP,该模型基于多模态大模型,结合多属性用户画像,通过强化学习优化的眼动机制,刻画个体间的视觉差异并实现注视点预测。为确保多模态大模型生成的预测点既满足格式规范,又具备空间精度,我们引入了一致性组相对策略优化机制(Consistency Group Relative Policy Optimization,C-GRPO),其设计灵感来源于眼动点的个体差异性及多属性用户画像之间的关联。在 SPA-ADV 及其他基准数据集上的大量实验证明了我们方法的有效性。
(三)
菠菜导航谢洪霞副教授指导的论文“CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation”被CCF A类会议ACM MM 2025录用。论文第一作者为2022级硕士张若萱,通讯作者为谢洪霞副教授,其他作者为菠菜导航2022级本科生文彬、2022级本科生左松函,以及台湾交通大学与台湾大学的合作老师同学。
本文针对当前文生图模型在序列图片生成任务中普遍存在的位置不对齐、长距离生成塌陷以及微小食材不一致等问题,提出了CookAnything框架。该方法系统性地研究了位置编码对于位置对齐效果的影响,并引入步骤级的注意力掩码以增强区域级别的控制能力,进一步通过上下文编码机制提升了细粒度食材在多步生成过程中的一致性。大量实验结果表明,CookAnything在RecipeGen和VGSI两大数据集上均显著优于现有主流方法。同时,CookAnything在其他典型序列图像生成任务中也展现出了良好的泛化能力和应用潜力。
(四)
菠菜导航刘元宁教授指导的2023级博士生林大为的论文“FreeCAD: A Multimodal Framework for 3D CAD Model Generation from Free-Form Prompts”被ACM MM 2025录用。论文第一作者为林大为,通讯作者为刘元宁教授,其他合作者包括人工智能学院2023级博士生袁梦和菠菜导航2022级博士生王子明。
开发计算机辅助设计(CAD)生成模型极大地提高了设计效率,促进了设计行业的创新和变革。现有的方法通常要求用户以特定格式输入提示,例如文本描述或图像,这限制了它们在各种场景中的广泛应用。为了解决这一局限性,我们推出了 FreeCAD,这是一个用户友好的 CAD 生成框架,支持自由形式的输入,包括文本描述和/或图像,使用户能够更灵活地表达其设计意图。具体而言,我们提出了一种基于大型语言模型(LLMs)的文本翻译器,通过将用户对同一对象的多样化请求转换为统一表达,有效地提高了生成 CAD 模型的成功率。此外,多视图表示融合(MVRF)模块使网络能够捕获更丰富的跨视图交互信息,有助于生成更精细的 CAD 模型。为了支持 FreeCAD 的训练,我们构建了一个多模态数据集 RealCAD,包含文本、图像和 CAD 三元组,其中图像来自 CAD 模型的 3D 打印产品。大量实验表明,FreeCAD 在多项任务中始终优于现有的最先进(SOTA)方法。
(五)
菠菜导航张小利教授团队的论文“ST-SAM: SAM-Driven Self-Training Framework for Semi-Supervised Camouflaged Object Detection”被ACM MM 2025录用。本文的第一作者是张小利教授指导的2024级博士生胡锡航,张小利教授为通讯作者。
半监督伪装目标检测(SSCOD)旨在利用有限的标注数据和大量的未标注数据,减少对代价高昂的像素级标注的依赖。然而,现有的基于教师-员工框架的SSCOD方法在缺乏监督的情况下存在严重的预测偏差和错误传播,同时其多网络结构导致了较高的计算开销和有限的可扩展性.为解决这些问题,提出了ST-SAM,一种摆脱了传统SSCOD约束的高效、简洁的标注框架。具体地说,ST-SAM采用Self-Training策略,动态过滤和扩展高置信度伪标签,以增强单模型架构,从而从根本上规避模型间预测偏差。此外,通过将伪标签转换为包含特定领域知识的混合提示,ST-SAM有效地利用了任何细分模型在专门任务中的潜力,以减少自训练中的错误累积。在COD基准数据集上的实验表明,ST-SAM算法仅需1%的标记数据就能达到最佳性能,优于现有的SSCOD算法,甚至可以与全监督算法相媲美。值得注意的是,ST-SAM只需要训练一个网络,而不依赖于特定的模型或损耗函数。该工作为高效标注的SSCOD建立了一个新的范式。
(六)
菠菜导航2023级硕士研究生薄晓磊等的论文“Cross-Counter-Repeat Attention for Enhanced Understanding of Visual Semantics in Radiology Report Generation” 被ACM MM2025录用。论文的第一作者为张小利教授指导的硕士生薄晓磊,通讯作者为张小利教授,其他作者包括杨飞扬博士、徐飞龙博士。
放射学报告生成(Radiology Report Generation,RRG)旨在使用深度学习模型代替影像科医生完成对放射学影像诊断报告的撰写。不同于目前大量工作聚焦于文本端而较少关注图像端的研究现状,本文从主流架构的内在结构合理性出发,探讨了类Transformer结构直接用于RRG这一图像-文本多模态任务上可能存在的问题。其中针对类Transformer架构导致的图像-文本模态特征流向不对等的问题,本文提出了使用具有强时序语义信息来增强图像特征的观点,并使用交叉反复注意力来完成差异模态的有益融合。实验结果表明,本文提出的方法在基准数据集上取得了显著的性能提升。
ACM MM 全称为国际多媒体大会(ACM intemational conference on Multimedia),是多媒体领域以及多模态领域中的顶级国际会议,也是中国计算机学会(CCF)收录的计算机图形学与多媒体领域A类会议。