PaperLuc N+1 更多DAOD相关的文章

PaperLuc N+1 更多DAOD相关的文章

image-20200814132208629

几篇DAOD的文章。

(Win10更新到2004,这输入法有些难看……)

Image-to-Image Translation: From Day to Night (IJCNN2019 oral)

image-20200814132648586

水啊,啥内容都解释了,CycleGAN都给介绍了小半页。就这也能oral

内容非常简单,就是用CycleGAN合成了一个新数据集,然后训练Faster RCNN进行车辆检测。

实验部分有个很有意思的地方,考虑了两个场景:

  • 检测器工作一整天,此时需要在源域和目标域的测试集同时进行测试(作者在双域数据的并集上测试);

    在这种场景下,仅在源域上监督训练构成下界,在源域和目标域上同时监督训练构成上界,而在源域和合成目标域数据上同时监督训练帮助模型性能迫近上界;

  • 检测器只在夜间工作,此时仅在夜间的目标域测试集上测试;

    在这种场景下,仅在源域上监督训练构成下界,仅在目标域上监督训练构成上界,而仅在合成目标域上或者在源域和合成目标域数据上同时监督训练帮助模型性能迫近上界。

image-20200814134140678

最终训练结果如上图,作者从后验数据分析的角度对每个策略训练了十次,以保证结果的置信度。结果证明所提出的方法优于各自的下限,显示了它们在使用无监督的图像到图像转换改进跨域目标检测中的成功。此外, 作者认为这个方法的优点在于其不依赖于十分完美的转换网络即便是生成的合成域数据质量不高,也能使得方法的性能有所提升。

CDN (ECCV2020)

image-20200815112747300

Motivation

过往的域对齐方法存在两个问题:

  • 将语义特征送到域判别器中进行域对齐(混淆),这样存在一个问题——语义特征同时包含图片内容域属性信息,很难使域判别器仅专注于删除特定于域(Domain-specific)的信息,而不会引起对图像内容的不良影响;
  • 过去很多方法仅在单层或少数层卷积上应用特征对齐,这忽视了不同表示级别的域差异。

Overview

作者提出了条件域归一化(Conditional Domain Normalization,CDN),将不同的域输入嵌入到共享的潜在空间中,其中所有不同域输入的特征都携带相同的域属性信息。具体而言,CDN通过将域属性从域输入的语义特征中分解出来,利用域嵌入模块(Domain Embedding Module)来学习域向量来表征域属性信息。通过使用此域向量利用条件规范化来编码另一个域输入的语义特征,这样可以使得不同的域特征携带相同的域属性信息。此外,作者在各个卷积阶段采用CDN,以适应性地解决不同类型的域移位。

CDN

image-20200815142402538

简单来说,CDN是对传统基于Siamese的对抗双阶段域对齐结构的域对齐部分进行的简单改进,如上图所示。具体的流程如下:

  1. 首先对源域特征和目标域特征进行批归一化(Batch Normalization);
  2. 原始的源域特征(NxCxHxW)经过由两个带有ReLU的全连接层构成的域嵌入模块Fd(Domain Embedding Module)输出一个1xCx1大小的嵌入向量,以表征域属性信息;
  3. 嵌入向量经过两个参数不同的仿射变换生成两个1x1xC大小的向量,γβ
  4. γβ作为目标域特征归一化的Scale and Shift过程中仿射变换的参数,从而使用源域向量表征的域属性学习以这种条件规范化(即Conditional Normalization)的方式对目标域特征进行编码,让两类特征最终携带相同的域属性信息;
  5. 最终使用域判别器对规范化的两个特征编码的域向量进行对齐。

Detector

image-20200815142301293

就检测器而言,其结构和过往的传统结构基本一致,只是将域对齐的方式以CDN的结构进行强化,但对齐的位置依旧是图像级别和实例级别的两个阶段。作者提出图像级别的域对齐需要考虑在多个卷积阶段进行,以保证不同级别的特征表示之间的域差异(Internal Covariant Shift),但这不过是MLDA等方法中常见的手段。

总之作者对图像级的多级全局特征统一进行弱对齐,对实例级别的局部特征进行弱对齐,以对抗训练的方式保证了域迁移。

Conclusion

实验上没有出彩之处,Cityscapes->Foggy Cityscapes的结果仅仅36.6,SCL都不敢对比。但分析做的挺充分,使用Frchet Inception Distance (FID)KullbackLeibler divergence作为Metric分别对方法的迁移能力和迁移后域差距进行了分析,值得学习。

总体而言,感觉作者是从Normalization这个角度切入,不管是CDN这个结构还是多级特征表示之间的域差异这个Story都有BN的思想。Normalization这个方向看来还是有很多可以做的点。

ATF (ECCV2020)

image-20200815124408676

Motivation

以DAF、MAF为代表的用于对抗域对齐的参数共享Siamese结构通过将源域和目标域进行混淆,从而学习域不变的特征。然而:Transferable adversarial training提到:在目标数据完全未标记的情况下,强制特征保持不变,可能会不可避免地扭曲域数据的原始分布,并且可能破坏两个领域之间的结构区分(Discrimination)(类内紧凑性与类间可分离性)。因此,这种将可靠的源域特征向不可靠的目标域特征对齐的结构可能会提升源域崩溃的风险,并最终恶化模型的结构区分度,从而不可避免地对检测器的物体分类和bbox回归带来负面影响。

Overview

作者提出了一个非对称三向结构(Asymmetric Tri-way structure,ATF)来提升Faster-RCNN的可转移性,一个独立的仅在源域上监督训练的辅助网络(Ancillary Net)可以保证整体结构的非对称性,一方面避免源域的崩溃,同时可以避免特征转移过程中的特征扭曲。

image-20200815132131110

具体而言,源域或目标域的图片首先输入到前两个卷积块,在这两个卷积块上,将结构划分为三个支路,如上图所示。上两个共享的支路构成主网络(Chief Net),源域和目标域的特征被输入到其中。第三个支路为辅助网络,仅由源域数据训练。三个分支共享相同的RPN,生成的ROI特征被连接在一起输入到RCNN最终输出检测结果。

Chief Net

Chief Net是ATF的主体,主要用于对域进行对齐,克服域差异,和过往的Siamese的双阶段框架没有很大的差异。同样是共享源域和目标域训练的参数,不同的是Chief Net没有在内部进行对齐,而是在外部和Ancillary Net进行对齐,从而对抗训练。对齐的方式基本延续了DAF的双阶段对齐:

  • 将图像级别对齐称为全局域对齐,对Chief Net的目标支路(目标域数据经过Chief Net)和Ancillary Net(源域数据经过Ancillary Net)卷积块输出的特征进行多重强对齐;
  • 将实例级别对齐称为局部域对齐,对Chief Net的目标支路(目标域数据经过Chief Net)和Ancillary Net(源域数据经过Ancillary Net)输出的ROI特征进行弱对齐。

Ancillary Net

Ancillary Net的存在是这篇文章的主要意义,它和Chief Net中一个分支的结构相同,并仅在源域数据上进行监督训练,以闭包的方式保持了一种源域可辨性的稳定性,从而保证了源风险的最小化

既然在共享参数的Chief Net上迁移学习会有源域崩溃和训练失控等风险,那么把这些工作转移到仅训练源域的Ancillary Net上来就好了。基于这样的思路,Ancillary Net调整由Chief Net的目标流学习的特征以适应源数据训练的检测器。同时,Ancillary Net受到源检测器的分类器和回归器的限制,使得结构判别保留在源域中。因此,通过域对齐和源风险最小化,可以有效限制预期任务风险以进行域自适应对象检测。

Conclusion

从实验结果上看,相对过往的模型有一定提升,但相对CVPR2020的SOTA结果还有一定距离,基本符合ECCV平均水平。整体而言,感觉结构有点Mean-Teacher的意思,也有点Tri-Training的意思,就是用一个辅助分支来从不同的视角(view)学一些不同的东西,这样同时还能避免这种对源域性能的伤害(避免源域崩溃),提升网络的稳定性(避免训练失控)。