机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周的重要论文包括阿里巴巴达摩院将因果推理方法引入计算机视觉领域,提出了一种反事实框架,在各个评估数据集上取得了稳定提升;Facebook 提出了纯 MLP 架构 ResMLP,当采用现代的训练方法时,该架构在 ImageNet 数据集上实现了相对不错的性能;阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能等研究。
目录:
Counterfactual Zero-Shot and Open-Set Visual Recognition
ResMLP: Feedforward networks for image classification with data-efficient training
Dense Contrastive Learning for Self-Supervised Visual Pre-Training
VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning
Diffusion Models Beat GANs on Image Synthesis
Self-Supervised Learning with Swin Transformer
TrTr: Visual Tracking with Transformer
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1: Counterfactual Zero-Shot and Open-Set Visual Recognition
作者: Zhongqi Yue、Tan Wang、Hanwang Zhang 等
摘要: 学过人类照片和鱼类照片的 AI,第一次见到美人鱼的照片会作何反应?人脸和鱼身它都很熟悉,但它无法想象一个从没见过的事物。近期,阿里巴巴达摩院将因果推理方法引入计算机视觉领域,尝试克服机器学习方法的缺陷,让 AI 想象从未见过的事物,相关论文已被计算机视觉顶会 CVPR 2021 收录。他们提出了一种反事实框架,通过基于样本特征的反事实生成保真,在各个评估数据集下取得了稳定的提升。
左为现有方法的 AI「想象」结果,中为达摩院论文提出的算法核心,右为基于达摩院框架完成的想象结果。
GCM-CF 算法流程。
推荐: 论文已被计算机视觉顶会 CVPR 2021 收录。
论文 2:ResMLP: Feedforward networks for image classification with data-efficient training
作者:Hugo Touvron、Piotr Bojanowski、Mathilde Caron 等
摘要: 最近一段时间,多层感知机(MLP)成为 CV 领域的重点研究对象,谷歌、清华大学等机构的研究者先后提出了纯 MLP 构建的视觉架构和新的注意力机制,这些研究将 CV 的研究重心重新指向 MLP。近日,Facebook 提出了具有数据高效训练、用于图像分类的纯 MLP 架构 ResMLP,当采用现代的训练方法时,该架构在 ImageNet 数据集上实现了相对不错的性能。该架构极为简单:它采用展平后的图像 patch 作为输入,通过线性层对其进行映射,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。
ResMLP 的具体架构。
ResMLP 与 Transformer、convnet 在监督学习框架下进行了比较,取得了相对不错的 Top-1 准确率。
推荐: 一种用于图像分类的纯多层感知机(MLP)架构。
论文 3:Dense Contrastive Learning for Self-Supervised Visual Pre-Training
作者:Xinlong Wang、Rufeng Zhang、Chunhua Shen 等
摘要: 预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。基于此,来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。
两种用于表征学习的对比学习范式的概念描述图。
推荐: 论文已被 CVPR 2021 接收。
论文 4:VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning
作者:Adrien Bardes、Jean Ponce、Yann LeCun
摘要: 在本文中,包括 LeCun 等来自 Facebook 的研究者提出了一种方差 - 不变 - 协方差正则化方法(Variance-Invariance-Covariance Regularization, VICReg),该方法通过沿每个维度的嵌入方差的简单正则化项,显式避免崩溃问题。VICReg 将方差项与基于冗余度压缩和协方差正则化的去相关(decorrelation)机制结合在一起,并在一些下游任务上获得与当前技术相当的结果。此外,将新的方差项合并到其他方法中有助于稳定训练并改善性能。
VICReg 架构图。
ImageNet 数据集上的评估结果。
推荐: 用于自监督学习的新型正则化项。
论文 5:Diffusion Models Beat GANs on Image Synthesis
作者:Prafulla Dhariwal、Alex Nichol
摘要: OpenAI 的这项研究表明:扩散模型可以实现优于当前 SOTA 生成模型的图像样本质量。他们通过一系列控制变量实验在无条件图像合成中实现了这一点。对于条件式图像合成,研究者利用分类器 guidance 进一步提升了样本质量:这种简单且计算效率高的方法可以使用分类器的梯度来权衡样本质量的多样性。
实验结果显示,扩散模型在 ImageNet 128×128 实现 2.97 的 FID,在 ImageNet 256×256 上为 4.59,ImageNet 512×512 上为 7.72。最后,研究者发现分类器 guidance 能够很好地与上采样扩散模型结合在一起,将 ImageNet 512×512 上的 FID 进一步提升至 3.85。
每个任务上与 SOTA 生成模型的样本质量对比。
算法 1。
推荐: 扩散模型在图像合成中也可以击败 GAN。
论文 6:Self-Supervised Learning with Swin Transformers
作者:Zhenda Xie、Yutong Lin、Zhuliang Yao 等
摘要: 最近两年,计算机视觉领域正在经历着两次重大转变,第一次是由 MoCo(Momentum Contrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于 transformer 的主干架构,由于 transformer 在自然语言处理中的巨大成功已经在计算机视觉领域得到了探索,进而产生了从 CNN 到 Transformer 的建模转变。不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)计算的分层视觉 Swin Transformer,它可以用作计算机视觉的通用主干网络。在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能。
而在近日,来自清华大学、西安交通大学以及微软亚洲研究院的研究者也在计算机视觉领域发力,提出了名为 MoBY 自监督学习方法,并以 Vision Transformers 作为其主干架构。这项研究并没有新创新,是将 MoCo v2 和 BYOL 结合在一起,并在 ImageNet-1K 线性评估中获得相当高的准确率:通过 300-epoch 训练,分别在 DeiT-S 和 Swin-T 获得 72.8% 和 75.0% 的 top-1 准确率。与使用 DeiT 作为主干的 MoCo v3 和 DINO 相比,性能略好,但技巧要轻的多。
MoBY 架构图。
MoBY 伪代码。
推荐: Swin Transformer 为主干,清华等提出 MoBY 自监督学习方法,代码已开源。
论文 7:TrTr: Visual Tracking with Transformer
作者:Moju Zhao、Kei Okada、Masayuki Inaba
摘要: 东京大学的研究者提出了一种基于强大注意力机制的新型跟踪器网络,称之为 Transformer 编码器 - 解码器架构,旨在获得全局和丰富的上下文依赖。在这一新架构中,模板图像的特征通过编码器部分的自注意力模块进行处理,以学习强大的上下文信息,然后将上下文信息发送到解码器部分,从而利用另一自注意力模块处理的搜索图像特征来计算交叉注意力。研究者在 VOT2018、VOT2019、OTB-100、UAV、NfS、TrackingNet 和 LaSOT 等基准测试上对跟踪器 TrTr 进行了广泛的评估,结果表明该方法优于 SOTA 算法。
TrTr Transformer 架构图。
跟踪框架流程图。
推荐: 东京大学基于强注意力机制的跟踪器网络。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下: