6月30日,中国计算机学会(CCF)推荐的A类国际学术会议ACM Multimedia 2022论文接收结果公布。中国人民大学高瓴人工智能学院师生有2篇论文被录用。国际多媒体学术会议(ACM International Conference on Multimedia,简称ACM MM)由国际计算机协会(ACM)发起,是多媒体处理、分析与计算领域具有影响力的国际会议。ACM MM 2022共收到 2473份论文投稿,接收690篇,录用率为27.9%。
论文介绍
论文题目:Multi-Modal Experience Inspired AI Creation
作者:曹乾 陈旭 宋睿华 蒋昊 杨光 曹朝
通讯作者:宋睿华
论文概述:人工智能创作,如诗歌或歌词生成,越来越受到工业界和学术界的关注,在过去几年中提出了许多有前景的模型。现有方法通常基于单一且独立的视觉或文本信息来产生输出。然而,在现实中,人类通常根据自己的体验进行创作,这些创作可能涉及不同的模态,并且和体验产生的顺序是相关的。为了对这种人类能力进行建模,在本文中,我们定义并解决了一个基于人类体验的新的人工智能创作问题。更具体地说,我们研究如何基于有顺序的多模态信息来生成文本。与之前的工作相比,这项任务要困难得多,因为设计的模型必须很好地理解和适应不同模态之间的语义,并以顺序的方式有效地将它们转换为输出。为了解决这些困难,我们首先设计了一个具备多模态注意力网络的多通道序列到序列架构。我们提出了一种针对顺序输入设计的负采样课程学习的策略来对此进行更有效的优化。为了对这个问题进行基准测试并证明我们模型的有效性,我们人工标注了一个新的多模态体验数据集。在该数据集上,我们进行了广泛的实验来将我们的模型与一系列代表性的基线模型进行对比。结果显示我们的模型在自动和人工指标上都得到了显著的改进。(此论文为中国人民大学与华为泊松实验室合作成果)
论文题目:Weakly-Supervised Temporal Action Alignment Driven by Unbalanced Spectral Fused Gromov-Wasserstein Distance
作者:罗迪新 王瑜彤 岳昂枭 许洪腾
通讯作者:许洪腾
论文概述:作为视频语义分析的重要任务之一,时序动作对齐旨在将视频分割成片段并用文本标记每个片段。大多数现有方法依赖于监督学习来训练时序动作对齐模型。由于标记视频的普遍不足问题,这些方法的实际应用受到了很大的限制。为了缓解这个问题,我们提出了一种基于称为非平衡谱融合Gromov-Wasserstein (US-FGW) 距离的新型计算最优传输技术,实现了一种弱监督时序动作对齐方法。我们的方法不使用具有已知剪辑和相应文本标签的视频——只需要每个训练视频与一组(未排序的)文本相关联,不需要帧和文本之间的细粒度对应关系。基于这种弱监督的“视频-文本”对,我们的方法在概率型或确定型的自动编码架构中联合训练视频帧和文本的表示模型,并惩罚视频帧与文本在隐空间的分布之间的US-FGW距离代码。此外,我们推广了经典的对比学习框架,根据US-FGW距离对其进行了重构和扩展,这为我们的问题提供了一种基于对比学习的新视角。实验结果表明,我们的方法及其变体优于最先进的弱监督时序动作对齐方法,其结果甚至可以与监督学习方法的结果在一些指标上相媲美。
(责任编辑:邵文泊)
人大新闻网版权与免责声明:
① 凡本网未注明其他出处的作品,版权均属于人大新闻中心,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:人大新闻网”。违反上述声明者,本网将追究其相关责任。
② 凡本网注明其他来源的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网对其负责。
③ 有关作品内容、版权和其它问题请与本网联系。
※ 联系方式:人民大学新闻中心 Email:news@ruc.edu.cn