深度了解自监督学习,就看这篇!详解DINO:视觉 Transformer 的自监督学习
self-distillation with no labels(DINO)
DINO 的初衷是质疑自监督学习相较于 CNN 是否为 Transformer(ViT) 提供了新的属性,但是在过程中,发现:
论文将这个自监督结构命名为 DINO ,这种**没有引入标签的“自蒸馏”**形式在结合各种 ViTs 以后可以达到 80.1% top-1.
116817761-47885e80-ab68-11eb-9975-d61d5a919e13.mp4
本文想要探索一下 Transformer 成功的关键是不是来自 Self-supervised Learning。其主要的动机是 Transformer 在 NLP 中成功的主要原因就是 Self-supervised Learning,比如 BERT 的 Masked Language Modeling 或者 GPT 的 Language Modeling。自监督训练会根据上下文创建一个任务,这些任务相比于有监督训练的预测标签来讲,可以提供更加丰富的学习信号。同样的道理,图像的有监督训练是把图像中包含的丰富的视觉信息压缩到只有类别的标签信息。
因此,本文研究自监督预训练对 ViT 特征的影响。本文给出了几个有趣的观察,这些观察在以往的有监督训练以及卷积网络里面都没有:
8×8 Patch 自监督训练的视觉 Transformer 的最后一层的 [CLS] token 的注意力图。
本文提出了一种简单的自监督方法,可以理解为一种没有标签的知识蒸馏方法。得到的结果称为 DINO,它通过使用标准 Cross-Entropy Loss 直接预测教师网络的输出来简化自监督训练。
DINO算法流程