MetaAI推出杂食者模型,搞定图像视频和3D三大分类任务
1月24日消息,最近,MetaAI推出了这样一个杂食者(Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像、视频和3D数据。
比如面对最左边的图像,它可以从深度图、单视觉3D图和视频数据集中搜集出与之最匹配的结果。
这在之前,都要分用不同的模型来实现;现在一个模型就搞定了。
而且Omnivore易于训练,使用现成的标准数据集,就能让其性能达到与对应单模型相当甚至更高的水平。
实验结果显示,Omnivore在图像分类数据集ImageNet上能达到86。0的精度,在用于动作识别的Kinetics数据集上能达84。1,在用于单视图3D场景分类的SUNRGBD也获得了67。1。
另外,Omnivore在实现一切跨模态识别时,都无需访问模态之间的对应关系。不同视觉模态都能通吃的杂食者
Omnivore基于Transformer体系结构,具备该架构特有的灵活性,并针对不同模态的分类任务进行联合训练。
模型架构如下:
Omnivore会将输入的图像、视频和单视图3D图像转换为embedding,并馈送到Transformer中。
虽然它可以使用任何visiontransformer架构来处理patchembedding,但鉴于Swintransformer在图像和视频任务上的强大性能,这里就使用该架构作为基础模型。
具体来说,Omnivore将图像转为patch,视频转为时空tube(spatiotemporaltube),单视图3D图像转为RGBpatch和深度patch。
然后使用线性层将patches映射到到embedding中。其中对RGBpatch使用同一线性层,对深度patch使用单独的。
总的来说,就是通过embedding将所有视觉模式转换为通用格式,然后使用一系列时空注意力(attention)操作来构建不同视觉模式的统一表示。
研究人员在ImageNet1K数据集、Kinetics400数据集和SUNRGBD数据集上联合训练出各种Omnivore模型。
这种方法类似于多任务学习和跨模态对齐,但有2点重要区别:
1、不假设输入观测值对齐(即不假设图像、视频和3D数据之间的对应关系);
2、也不假设这些数据集共享相同的标签空间(labelspace)。性能超SOTA
实验方面,首先将Omnivore与各视觉模态对应的特定模型(下表中指Specific)进行比较。
一共有三种不同的模型尺寸:T、S和B。
预训练模型在七个下游任务上都进行了微调。
图像特定模型在IN1K上预训练。视频特定模型和单视图3D特定模型均使用预训练图像特定模型的inflation进行初始化,并分别在K400和SUNRGBD上进行微调。
结果发现,Omnivore在几乎所有的下游任务上的性能都相当于或优于各特定模型。
其中尺寸最大的SwinB实现了全部任务上的SOTA。
将Omnivore与具有相同模型架构和参数数量的特定模型比较也是相同的结果。
其中Omnivore在IN1K、K400和SUN数据集上从头开始联合训练,而特定模态的模型针对每个数据集专门训练:
ImageSwin模型从零开始训练,VideoSwin和DepthSwin模型则从ImageSwin模型上进行微调。
接下来将Omnivore与图像、视频和3D数据分类任务上的SOTA模型进行比较。
结果仍然不错,Omnivore在所有预训练任务中都表现出了优于SOTA模型的性能(下图从上至下分别为图像、视频和3D数据)。
此外,在ImageNet1K数据集上检索给定RGB图像的深度图也发现,尽管Omnivore没有接受过关于1K深度图的训练,但它也能够给出语义相似的正确答案。
最后,作者表示,尽管这个杂食者比传统的特定模式模型有了很多进步,但它有一些局限性。
比如目前它仅适用于单视图3D图像,不适用于其他3D表示,如体素图(voxels)、点云图等。
论文地址:点击打开
代码已开源:点击打开
侯卫东官场笔记之养大车不容易《侯卫东官场笔记》这本书中,养车的人不少,一是上青林公路修通之后,煤炭资源,石头资源被大量开采,需要运输,二是成津县磷矿多,运输也得靠车,所以,小说中,形形色色的养车人展现的不……
可笑而卑微的自尊心,给社会上的每个人贴上了不一样的标签你看,不好好学习就会和他一样去扫大街!(一个妈妈教育他的孩子)他就是个乞丐(一个孩子可笑从容地说)他是你农村来的土鳖(一个孩子对他的同学说)你就是一个三本大学……
谁能一次次地给你机会呢?我们常说,机会是给有准备的人。但即使你做好了充分的准备,机会未必就一定会来临啊!人的一生,到底能有多少机会能来到你的身边?恐怕没多少人敢奢望。因为,很多人,终其一生,好像也没有……
快放过这样回你微信的人吧最近看到一些这样回你微信的人,最值得深交如果这样回你微信的人就算了吧之类的,忍不住想起了一些往事,曾深受其累的我没想到,竟然也有相当一部分人不分情况不分个体差异的奉为玉律。仿佛……
舌尖上的安徽太湖,一场关于湖鲜的邂逅视频加载中。。。寻鲜,寻的是一种味道,更是一种情怀。湖鲜之美莫过于鱼,在美食圣地、吃货故里安徽太湖县,想要寻一处拥有超多水产美食的好地方,是品尝湖鲜的不二之选,一场关于鲜……
云边有个小卖部随笔(1)山野,桃树,王莺莺刘十三:王莺莺,为什么天空那么高?王莺莺:你看到云没有?那些都是天空的翅膀啊1长大的刘十三似乎过得并不顺利,自己的工作保险没有卖出去,自己的感情也……
穿越执念看效果2021。4。11爱自己,自我肯定第397天结束课程以后,电话顺利约上拼车小哥,安全轻松的回到温馨的家。当我选择从未尝试过的一种交通工具出行时,以往的各种赶时间,马……
7月暑期儿童电影带你high翻电影院全国高温热潮中,暑期档也迎来了儿童电影的角逐期,熊孩子们也有了一个凉爽的去处。而为院线买单的家长们最关心的就是:这一波暑期儿童电影到底能不能打?从数量上看,单单七月份已经……
诗歌冬季总怀有相信,希望蕴含在失望之中就像流石,深藏在河流之中流水,总是不停的流啊流日子,镌刻在岁月里就像生命,煎熬在水火里冰雪,能孕育春天……
看尽了世间的浮华转身拥抱你的那一刹那,让我的内心陷入了挣扎。本来以为自己可以了无牵挂,没曾想却让自己的内心开出了牵绊之花。这朵花让我重新相信这个世界还有童话,只不过童话会让人不停地犯傻。如果非……
11月23日星期一早安日签,读正能量励志暖心心语,充满正能量欢迎您又来吸收正能量,这里是每日签正能量,约会世界上最好的能量,影响有影响力的人。【早安心语】:不为掌声的诠释,不为刻意的征服,只有辛勤的汗水化作追求的脚步,心中坚定的信……
一份住宿指南为犍为跑马助力距5月2日乐山犍为跑马还有最后15天赛事小编给大家一份住宿指南大家吃好喝好玩好,当然也要睡好休息好了之后,跑马才有劲犍为天波酒店天波酒店外观……