3月18日,百度AIG计算机视觉首席科学家、博士王井东受中国人民大学高瓴人工智能学院准聘助理教授胡迪邀请做客“高屋建瓴AI公开课”。王井东以“Context Autoencoder for Scalable Self-Supervised Representation Pretraining”为题,围绕图像表征自监督学习(Self-supervised Learning)的动机、发展过程,以及基于MIM方法和基于contrastive learning方法之间的对比,结合最新研究进展做了分享。
王井东在讲座中介绍了团队最近研究内容、应用场景与未来可能的发展发展,并围绕“图像表征的自监督预训练”主题展开讲授。王井东回顾了视觉领域的自监督表征学习。他表示,基于对比学习的自监督表征学习希望来自于同一图像两个裁剪的互信息尽可能大,即有较高程度的对齐。王井东对基于对比学习的预训练模型进行总结,他表示,尽管这些方法定义了不同的训练框架,但由于是对同一张图像做裁剪并进行对比学习,模型往往会关注到图像的中心,这一点在文章的对比实验和可视化中也可以进一步体现。
王井东还介绍了基于图像掩码的预训练,相比较于对比学习的自监督表征学习方式,基于图像掩码的训练可以更好地关注到图像的各个分块的信息,从而获得表征能力更强的空间。 王井东重点就团队近期工作《Context Autoencoder for Self-Supervised Representation Learning》作了介绍,他表示,CAE将图像表征预训练模型对 “表征学习” 和 “图像重构” 的两个功能解耦,旨在进行预训练时,实现编码器只负责表征学习,解码器只负责图像的重构的目的,从而让编码器可以更好地对图像表征做建模。
王井东通过对CAE的可视化分析和实验结果展示,证明了CAE在图像表征建模上的优越性。
在问答环节,围绕能否运用自然语言处理中的有关范式更好地利用图像预训练模型这一问题,王井东表示,预训练本身是希望得到强大的、泛化能力强的编码器,研究者可以从训练方式的角度入手,直接在训练中建模更好的编码器。现场师生围绕讲座主题展开了深入交流。
(责任编辑:崔梦婷)
人大新闻网版权与免责声明:
① 凡本网未注明其他出处的作品,版权均属于人大新闻中心,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:人大新闻网”。违反上述声明者,本网将追究其相关责任。
② 凡本网注明其他来源的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网对其负责。
③ 有关作品内容、版权和其它问题请与本网联系。
※ 联系方式:人民大学新闻中心 Email:news@ruc.edu.cn