一文看尽CVPR2022最新22篇论文(附打包下载)
CVPR2022已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24。由于每年的CVPR全部论文以及相关细节都需要等到六月会议召开才会正式公布,在这之前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022最新论文进行追踪,包括分研究方向的论文、代码汇总以及论文技术直播分享。
CVPR2022论文分方向整理会在极市社区进行更新,项目地址:
https:bbs。cvmart。netarticles6124
以下是最新更新的CVPR2022论文一览,包括的研究方向有:神经网络架构设计、异常检测、三维视觉、姿态估计、图像修复、模型训练、视觉语言表征学习、对比学习、深度估计、语义分割、动作检测、人脸防伪、长尾识别。
打包下载地址:
https:bbs。cvmart。netarticles6149
神经网络架构设计〔1〕AnImagePatchisaWave:QuantumInspiredVisionMLP(量子启发的视觉MLP)
paper:https:arxiv。orgabs2111。12294
code1:https:github。comhuaweinoahCVBackbonestreemasterwavemlppytorch
code2:https:gitee。commindsporemodelstreemasterresearchcvwavemlp
在CV领域的最近工作表明,主要由全连接层堆叠的纯MLP架构可以实现与CNN和Transformer竞争的性能。视觉MLP的输入图像通常被拆分为多个tokens,而现有的MLP模型直接将它们以固定的权重聚合,忽略了来自不同图像的tokens的变化语义信息。为了动态聚合tokens,本文建议将每个token表示为具有振幅和相位两部分的波函数。基于类波token表示,本文为视觉任务建立了一种新颖的WaveMLP架构。大量实验表明,在图像分类、对象检测和语义分割等各种视觉任务上,所提出的WaveMLP优于最先进的MLP架构。【2】AConvNetforthe2020s
paper:https:arxiv。orgabs2201。03545
code:https:github。comfacebookresearchConvNeXt
详细解读:文艺复兴ConvNet卷土重来,压过Transformer!FAIR重新设计纯卷积新架构
这项工作重新检查了设计空间并测试了纯ConvNet所能达到的极限。本文逐渐将标准ResNet现代化为视觉Transformer的设计,并在此过程中发现了导致性能差异的几个关键组件。这一探索的结果是一系列纯ConvNet模型,称为ConvNeXt。ConvNeXts完全由标准ConvNet模块构建,在准确性和可扩展性方面与Transformer竞争,实现87。8ImageNettop1准确率,在COCO检测和ADE20K分割方面优于SwinTransformers,同时保持标准ConvNet的简单性和效率。【3】MobileFormer:BridgingMobileNetandTransformer(连接MobileNet和Transformer)
paper:https:arxiv。orgabs2108。05895
MobileFormer是一种MobileNet和Transformer的并行设计,中间有一个双向桥,这种结构利用了MobileNet在本地处理和全局交互中的Transformer的优势,同时可以实现局部和全局特征的双向融合。
MobileFormer中的Transformer包含token非常少(6个或更少),并随机初始化这些token来学习全局先验,从而降低计算成本。结合提出的轻量级交叉注意力对桥梁进行建模,MobileFormer不仅计算效率高,而且具有更强的表示能力。它在低FLOP状态下性能优于MobileNetV3。此外,通过用MobileFormer替换DETR中的主干、编码器和解码器来构建的检测器性能优于DETR1。1AP,但节省了52的计算成本和36的参数。【4】BatchFormer:LearningtoExploreSampleRelationshipsforRobustRepresentationLearning(学习探索样本关系以进行鲁棒表征学习)
paper:https:arxiv。orgabs2203。01522
code:https:github。comzhihou7BatchFormer
本文的目的在于让深度神经网络本身能够探索每个minibatch的样本关系。具体操作上,本文引入了一个batchtransformer模块,即BatchFormer,将其应用于每个minibatch的batch维度,实现在训练期间隐式探索样本关系。通过这种方法可以实现不同样本的协作,例如头类样本也可以有助于尾类的学习来进行长尾识别。在十个以上的数据集进行了广泛的实验,证明在没有其他多余操作的情况下,BatchFormer在不同的数据稀缺性问题上取得了显著的改进,包括长尾识别、组合零样本学习、域泛化和对比学习。
异常检测【1】SelfSupervisedPredictiveConvolutionalAttentiveBlockforAnomalyDetection(用于异常检测的自监督预测卷积注意力块)
paper:https:arxiv。orgabs2111。09099
code:https:github。comristeasspcab
本文提出了一种由掩码卷积层和通道注意模块组成的新型模块SSPCAB,它可以预测卷积感受野中的掩码区域。SSPCAB以自监督的方式通过自身的重建损失进行训练。这一自监督块是通用的,并且可以很容易地融入到各种最先进的异常检测方法中。SSPCAB从一个带有扩张滤波器的卷积层开始,其中感受野的中心区域被掩码,生成的激活图通过通道注意模块传递,同时配置了一个损失,可以最大限度地减少感受野中被掩码区域的重建误差。SSPCAB在图像和视频异常检测任务上都验证了其对性能的提升。
三维视觉【1】CrossPoint:SelfSupervisedCrossModalContrastiveLearningfor3DPointCloudUnderstanding(用于3D点云理解的自监督跨模态对比学习)
paper:https:arxiv。orgabs2203。00680
code:http:github。comMohamedAfhamCrossPoint
本文提出了CrossPoint,这是一种简单的跨模态对比学习方法,用于学习可迁移的3D点云表示。它通过最大化点云和不变空间中相应渲染的2D图像之间的一致性来实现对象的3D2D对应,同时鼓励对点云模态中的变换保持不变。本文的联合训练目标结合了模态内和模态之间的特征对应关系,从而以自我监督的方式集成了来自3D点云和2D图像模态的丰富学习信号。实验结果表明,本文的方法在包括3D对象分类和分割在内的各种下游任务上优于以前的无监督学习方法。【2】AUnifiedQuerybasedParadigmforPointCloudUnderstanding(一种基于统一查询的点云理解范式)
paper:https:arxiv。orgpdf2203。01252。pdf
本文提出了一种新颖的嵌入查询范式(EQParadigm),用于3D理解任务,包括检测、分割和分类。EQParadigm是一个统一的范式,可以将任何现有的3D主干架构与不同的任务头结合起来。在EQParadigm下,输入首先在嵌入阶段以任意特征提取架构进行编码,该架构独立于任务和头。然后,查询阶段使编码的特征适用于不同的任务头。这是通过在查询阶段引入中间表示(即Q表示)作为嵌入阶段和任务头之间的桥梁来实现的。本文设计了一个新颖的QNet作为查询阶段网络。各种3D任务的广泛实验结果表明,EQParadigm与QNet结合是一种通用且有效的管道,它可以实现骨干网和头部的灵活协作,并进一步提高最先进方法的性能。【3】XTrans2Cap:CrossModalKnowledgeTransferusingTransformerfor3DDenseCaptioning(使用Transformer进行3D密集字幕的跨模式知识迁移)
paper:https:arxiv。orgpdf2203。00843。pdf
本文研究了使用Transformer进行3D密集字幕的跨模式知识转移,即XTrans2Cap。本文提出的XTrans2Cap通过师生框架支持的知识蒸馏有效地提高了单模态3D字幕的性能。在实践中,在训练阶段,教师网络利用辅助的2D模态,通过特征一致性约束引导仅以点云作为输入的学生网络。由于精心设计的跨模态特征融合模块和训练阶段的特征对齐,XTrans2Cap轻松获取嵌入在2D图像中的丰富外观信息。因此,在推理过程中只能使用点云来生成更忠实的字幕。
【4】CLIPNeRF:TextandImageDrivenManipulationofNeuralRadianceFields(文本和图像驱动的神经辐射场操作)
paper:https:arxiv。orgabs2112。05139
code:https:cassiepython。github。ioclipnerf
本文提出了CLIPNeRF,一种用于神经辐射场(NeRF)的多模态3D对象操作方法。通过利用最近的对比语言图像预训练(CLIP)模型的联合语言图像嵌入空间,本文提出了一个统一的框架,允许以用户友好的方式使用短文本提示或示例图像操作NeRF。此外,本文提出了一种逆优化方法,该方法可以将输入图像准确地投影到潜在代码以进行操作,从而能够对真实图像进行编辑。姿态估计【1】MixSTE:Seq2seqMixedSpatioTemporalEncoderfor3DHumanPoseEstimationinVideo(用于视频中3D人体姿势估计的Seq2seq混合时空编码器)
paper:https:arxiv。orgpdf2203。00859。pdf
本文提出了MixSTE(混合时空编码器),它有一个时间变换器块来分别建模每个关节的时间运动和一个空间变换器块来学习关节间的空间相关性。这两个块交替使用以获得更好的时空特征编码。此外,网络输出从中心帧扩展到输入视频的整个帧,从而提高了输入和输出序列之间的连贯性。在三个基准(即Human3。6M、MPIINF3DHP和HumanEva)上进行了广泛的实验来评估所提出的方法。结果表明,该模型在Human3。6M数据集上优于最先进的方法10。9PMPJPE和7。6MPJPE。【2】H4D:Human4DModelingbyLearningNeuralCompositionalRepresentation(通过学习神经组合表示进行人体4D建模)
paper:https:arxiv。orgpdf2203。01247。pdf
尽管基于深度学习的3D重建取得了令人印象深刻的成果,但对直接学习以详细几何对4D人体捕捉进行建模的技术的研究较少。这项工作提出了一个新颖的框架,可以通过从广泛使用的SMPL参数模型中利用人体先验来有效地学习动态人体的紧凑和组合表示。本文提出了一种简单而有效的线性运动模型来提供粗略和正则化的运动估计,然后使用辅助代码中编码的残差对位姿和几何细节进行每帧补偿。从技术上讲,本文引入了新的基于GRU的架构来促进学习和提高表示能力。【3】LearningLocalGlobalContextualAdaptationforMultiPersonPoseEstimation(学习用于多人姿势估计的局部全局上下文适应)
paper:https:arxiv。orgpdf2109。03622。pdf
本文提出了一种多人姿态估计方法,称为LOGOCAP,通过学习人类姿势的LOcalGlObal上下文适应。具体来说,本文的方法在第一步从小局部窗口中的局部关键点扩展图(KEM)中学习关键点吸引力图(KAM),随后将其视为以关键点为中心的全局热图上的动态卷积核,以进行上下文适应,实现准确的多人姿态估计。该方法是端到端可训练的,在单次前向传递中具有近乎实时的推理速度,在自下而上的人体姿态估计的COCO关键点基准上获得了最先进的性能。图像修复【1】IncrementalTransformerStructureEnhancedImageInpaintingwithMaskingPositionalEncoding(增量transformer结构增强图像修复与掩蔽位置编码)
paper:https:arxiv。orgabs2203。00867
code:https:github。comDQiaoleZITSinpainting
近年来,图像修复取得了重大进展。然而,恢复具有生动纹理和合理结构的损坏图像仍然具有挑战性。由于卷积神经网络(CNN)的感受野有限,一些特定的方法只能处理常规纹理,而会丢失整体结构。另一方面,基于注意力的模型可以更好地学习结构恢复的远程依赖性,但它们受到大图像尺寸推理的大量计算的限制。为了解决这些问题,本文建议利用额外的结构恢复器来逐步促进图像修复。所提出的模型在固定的低分辨率草图空间中使用强大的基于注意力的Transformer模型来恢复整体图像结构。模型训练【1】DNDETR:AccelerateDETRTrainingbyIntroducingQueryDeNoising(通过引入查询去噪加速DETR训练)
paper:https:arxiv。orgabs2203。01305
code:https:github。comFengLiustDNDETR
本文提出了一种新的去噪训练方法来加速DETR训练,并加深了对DETR类方法的缓慢收敛问题的理解。本文表明,缓慢收敛是由于二部图匹配的不稳定性导致早期训练阶段的优化目标不一致。为了解决这个问题,除了Hungarian损失之外,本文的方法还向Transformer解码器中添加了带有噪声的groundtruth边界框,并训练模型重建原始框,这有效地降低了二分图匹配难度并导致更快的收敛。该方法是通用的,可以通过添加数十行代码轻松插入任何类似DETR的方法中,以实现显着的改进。视觉语言表征学习【1】HairCLIP:DesignYourHairbyTextandReferenceImage(通过文本和参考图像设计你的头发)
paper:https:arxiv。orgabs2112。05142
project:https:github。comwtyustcHairCLIP
头发编辑是计算机视觉和图形学中一个有趣且具有挑战性的问题。许多现有方法需要精心绘制的草图或蒙版作为编辑的条件输入,但是这些交互既不简单也不高效。本文提出了一种新的头发编辑交互模式,可以根据用户提供的文本或参考图像单独或联合操作头发属性。为此,本文在共享嵌入空间中对图像和文本条件进行编码,并通过利用对比语言图像预训练(CLIP)模型强大的图像文本表示能力提出统一的头发编辑框架。通过精心设计的网络结构和损失函数,本文的框架可以以一种解开的方式执行高质量的头发编辑。【2】VisionLanguagePreTrainingwithTripleContrastiveLearning(三重对比学习的视觉语言预训练)
paper:https:arxiv。orgabs2202。10401
code:https:github。comutasmileTCL
视觉语言表示学习通过对比损失(例如InfoNCE损失)在很大程度上受益于图像文本对齐。这种对齐策略的成功归功于其最大化图像与其匹配文本之间的互信息(MI)的能力。然而,简单地执行跨模态对齐(CMA)会忽略每个模态中的数据潜力,这可能会导致表示下降。本文通过利用跨模态和模态内自我监督,提出了用于视觉语言预训练的三重对比学习(TCL)。除了CMA,TCL还引入了模态内对比目标,以在表示学习中提供互补优势。为了利用来自图像和文本输入的本地化和结构信息,TCL进一步最大化了图像文本的局部区域与其全局摘要之间的平均MI。该工作是第一个考虑多模态表示学习的局部结构信息的工作。对比学习【1】CraftingBetterContrastiveViewsforSiameseRepresentationLearning(为连体表示学习制作更好的对比视图)
paper:https:arxiv。orgpdf2202。03278。pdf
code:https:github。comxyupengContrastiveCrop
对于高性能连体表示学习,关键之一是设计好的对比对。大多数以前的工作只是简单地应用随机采样来对同一图像进行不同的裁剪,这忽略了可能降低视图质量的语义信息。本文提出ContrastiveCrop,它可以有效地为连体表示学习生成更好的作物。值得注意的是,本文方法仔细考虑了用于对比学习的正对,而额外的训练开销可以忽略不计。作为一个即插即用且与框架无关的模块,ContrastiveCrop在CIFAR10、CIFAR100、TinyImageNet和STL10上持续将SimCLR、MoCo、BYOL、SimSiam的分类精度提高0。42。0。深度估计【1】OmniFusion:360MonocularDepthEstimationviaGeometryAwareFusion(通过几何感知融合进行360度单目深度估计)
paper:https:arxiv。orgabs2203。00838
将深度学习方法应用于全向图像的一个最大的挑战是球面失真。在需要结构细节的深度估计等密集回归任务中,在扭曲的360度图像上使用普通CNN层会导致不希望的信息丢失。本文提出了一个360度单目深度估计管道OmniFusion,以解决球面失真问题。本文的管道将360度图像转换为失真较小的透视图块(即切线图像),以通过CNN获得块状预测,然后将块状结果合并为最终输出。为了处理补丁预测之间的差异,这是影响合并质量的主要问题,本文提出了一个具有以下关键组件的新框架。语义分割【1】ClassReActivationMapsforWeaklySupervisedSemanticSegmentation(弱监督语义分割的类重新激活图)
paper:https:arxiv。orgpdf2203。00962。pdf
code:https:github。comzhaozhengChenReCAM
本文介绍了一种非常简单高效的方法:使用名为ReCAM的softmax交叉熵损失(SCE)重新激活具有BCE的收敛CAM。给定一张图像,本文使用CAM提取每个类的特征像素,并使用它们与类标签一起使用SCE学习另一个全连接层(在主干之后)。收敛后,本文以与CAM中相同的方式提取ReCAM。由于SCE的对比性质,像素响应被分解为不同的类别,因此预期的掩码模糊性会更小。对PASCALVOC和MSCOCO的评估表明,ReCAM不仅可以生成高质量的遮罩,还可以在任何CAM变体中以很少的开销支持即插即用。动作检测【1】Colar:EffectiveandEfficientOnlineActionDetectionbyConsultingExemplars(通过咨询示例进行有效且高效的在线动作检测)
paper:https:arxiv。orgpdf2203。01057。pdf
当前的工作模拟历史依赖关系并预测未来以感知视频片段中的动作演变并提高检测准确性。但是,现有的范式忽略了类别级别的建模,对效率没有给予足够的重视。本文开发了一种有效的示例咨询机制,该机制首先测量框架与示例框架之间的相似度,然后根据相似度权重聚合示例特征。这也是一种有效的机制,因为相似性测量和特征聚合都需要有限的计算。基于样例协商机制,可以将历史帧作为样例来捕捉长期依赖关系,将某个类别中的代表性帧作为样例来实现类别级建模。人脸防伪【1】ProtectingCelebritieswithIdentityConsistencyTransformer(使用身份一致性transformer保护名人)
paper:https:arxiv。orgabs2203。01318
这项工作提出了身份一致性转换器,这是一种新颖的人脸伪造检测方法,专注于高级语义,特别是身份信息,并通过发现内部和外部人脸区域的身份不一致来检测可疑人脸。身份一致性转换器包含用于身份一致性确定的一致性损失。本文表明,IdentityConsistencyTransformer不仅在不同的数据集上表现出卓越的泛化能力,而且在包括deepfake视频在内的真实应用中发现的各种类型的图像退化形式上也表现出卓越的泛化能力。当此类信息可用时,身份一致性转换器可以很容易地通过附加身份信息进行增强,因此它特别适合检测涉及名人的面部伪造。长尾识别【1】TargetedSupervisedContrastiveLearningforLongTailedRecognition(用于长尾识别的有针对性的监督对比学习)
paper:https:arxiv。orgpdf2111。13998。pdf
现实世界的数据通常表现出具有严重类不平衡的长尾分布,其中多数类可以主导训练过程并改变少数类的决策边界。最近,研究人员研究了监督对比学习在长尾识别方面的潜力,并证明它提供了强大的性能提升。本文表明,虽然有监督的对比学习可以帮助提高性能,但过去的基线受到数据分布不平衡带来的一致性差的影响。这种差的均匀性表现在来自少数类的样本在特征空间中的可分离性差。为了解决这个问题,本文提出了有针对性的监督对比学习(TSC),它提高了超球面上特征分布的均匀性。在多个数据集上的实验表明,TSC在长尾识别任务上实现了最先进的性能。