谷歌研制出AI编舞师可根据音乐来10种freestyle,霹
Transformer又又接新活了这次谷歌用它搞了一个会根据音乐跳舞的AI。
而这个AI也凭借着对音乐和舞蹈之间的关联的深刻理解,打败了3个同类模型取得SOTA,登上了ICCV2021。
另外,除了代码开源,研究团队还随之一起公开了一个含有10种类型的3D舞蹈动作数据集。
心动的,搞起来搞起来!这个freestyle怎么来?
前面咱们不是说,这个AI用了Transformer吗?
但这里的Transformer不是普通的Transformer,它是一个基于完全注意力机制(FullAttention)的跨模态Transformer,简称FACT。
为什么要搞这么复杂?
因为研究人员发现,光用单纯的Transformer并不能让AI理解音乐和舞蹈之间的相关性。
所以,这个FACT是怎么做的呢?
总的来说,FACT模型采用了独立的动作和音频transformer。
首先输入2秒钟的seed动作序列和一段音频,对其进行编码。
然后将embedding(从语义空间到向量空间的映射)连接起来,送入跨模态transformer学习两种形态的对应关系,并生成n个后续动作序列。
这些序列再被用来进行模型的自监督训练。
其中3个transformer一起学习,采用的是不用预处理和特征提取,直接把原始数据扔进去得到最终结果的端到端的学习方式。
另外就是在自回归框架中进行模型测试,将预期运动作为下一代阶段的输入。
最终,该模型可以逐帧地生成一段(longrange)舞蹈动作。
下图则展示了该模型通过同一段种子动作(嘻哈风格)、不同音乐生成了四种舞蹈作品(霹雳舞、爵士芭蕾、Krump和MiddleHiphop)。
有没有懂行的点评一下?
而为了让AI生成的舞蹈生动且和音乐风格保持一致,这个模型设计里面有3个关键点:
1、模型内部token可以访问所有输入,因此三个transformer都使用一个完全注意力mask。这使得它比传统的因果模型更具表现力。
2、不止预测下一个,该模型还预测N个后续动作。这有助于模型关注上下文,避免在几个生成步骤后出现动作不衔接和跑偏的情况。
3、此外,在训练过程的前期还用了一个12层深的跨模态transformer模块来融合两个embedding(音频和动作)。研究人员表示,这是训练模型倾听分辨输入音乐的关键。
下面就用数据来看看真实性能。打败3个SOTA模型
研究人员根据三个指标来评估:
1、动作质量:用FID来计算样本(也就是他们自己发布的那个数据集,后面介绍)和生成结果在特征空间之间的距离。一共用了40个模型生成的舞蹈序列,每个序列1200帧(20秒)。
FID的几何和动力学特性分别表示为FIDg和FIDk。
2、动作多样性:通过测量40套生成动作在特征空间中的平均欧氏距离(Euclideandistance)得出。
分别用几何特征空间Distg和动力学特征空间k来检验模型生成各种舞蹈动作的能力。
3、动作与音乐的相关性:没有好的已有指标,他们自己提出了一个节拍对齐分数来评估输入音乐(音乐节拍)和输出3D动作(运动节拍)之间的关联。
下面是FACT和三种SOTA模型(Li等人的、Dancenet、DanceRevolution)的对比结果:
可以看到,FACT在三项指标上全部KO了以上三位。
由于Li等人的模型生成的动作不连续,所以它的平均动力学特征距离异常高,可以忽略。
看了数据,咱们再看个更直观的:
emmm,相比动作灵活的FACT,其他两位看起来都有点不太聪明的亚子舞蹈动作数据集AIST
最后,再来简单介绍一下他们自己打造的这个3D舞蹈动作数据集AIST。
看名字你也发现了,这是基于现有的舞蹈数据集AIST的加强版,主要是在原有基础上加上了3D信息。
最终的AIST一共包含5。2小时、1408个序列的3D舞蹈动作,跨越十种舞蹈类型,包括老派和新派的的霹雳舞、Pop、Lock、Waack,以及MiddleHipHop、LAstyleHipHop、House、Krump、街头爵士和爵士芭蕾,每种舞蹈类型又有85的基本动作和15的高级动作。
(怎么感觉全是街舞啊?)
每个动作都提供了9个相机视角,下面展示了其中三个。
它可以用来支持以下三种任务:多视角的人体关键点估计;人体动作预测生成;人体动作和音乐之间的跨模态分析。团队介绍
一作李瑞龙,UC伯克利一年级博士生,UC伯克利人工智能研究室成员,FacebookRealityLabs学生研究员。
研究方向是计算机视觉和计算机图形学的交叉领域,主要为通过2D图像信息生成和重建3D世界。
读博之前还在南加州大学视觉与图形实验室做了两年的研究助理。
本科毕业于清华大学物理学和数学专业、硕士毕业于计算机专业,曾在GoogleResearch和字节AILab实习。
共同一作YangShan,就职于GoogleResearch。
研究方向包括:应用机器学习、多模态感知、3D计算机视觉与物理仿真。
博士毕业于北卡罗来纳大学教堂山分校(UNC,美国8所公立常春藤大学之一)。
DavidA。Ross,在GoogleResearch领导VisualDynamics研究小组。
加拿大多伦多大学机器学习和计算机视觉专业博士毕业。
AngjooKanazawa,马里兰大学博士毕业,现在是UCB电气工程与计算机科学系的助理教授,在BAIR领导旗下的KAIR实验室,同时也是GoogleResearch的研究员。
觉醒年代归来,还是哪个少年吗?最近迷上《觉醒年代》,被他们激荡的青春感动,更为他们惺惺相惜、相见恨晚的友情打动。一个个都是历史书上,大名鼎鼎的人物,一个个名字都是闪闪发光的。这些可爱的人物,见面就是爱……
女孩跳车身亡司机到底有没有图谋不轨?找出意外发生的根源有句俗语叫害人之心不可有,防人之心不可无,意思是人虽然不能有害人的念头,但一定要有防范坏人的心,社会有各种各样的自然人组成,其中有善良的人,也有大恶之人,所以防人之心不可缺少。……
想要幸福吗养成这些最简单的生活习惯想要幸福吗养成这些最简单的生活习惯什么是幸福,不同的人有不同的回答,由于成长的经历不同。对幸福的体会也不尽相同。其实答案很简单:最好的幸福是有事做,有人爱,有所期待……
想和人生请假,暂离婚姻的苏敏,自驾出逃后变得不一样了出逃婚姻,自驾找回自己的苏敏阿姨,如今怎么样了年少时,常听老辈人讲,女人再强势再优秀,都不如能嫁到一个好人家,找个好男人,这才是女人终究最好的归宿。曾经不乏一些女人……
做人,我们都需要一个原则做人,我们都需要一个原则作者张淑萍主播房蓉仪宣来源淑萍文集点上方可聆听生活中,人们总是习惯于以自我的名义,去挑战万物的本性;天地间,万物更是执着于以其独……
承诺带我们走进人间天堂承诺是什么?承诺是全然的付出!无条件的付出!承诺没有保留,是100的付出给对方!100的付出给自己!承诺让我们走出角色的死胡同,走进人间天堂!可是承诺到底是什么呢?……
人生岁月的经典语录1、善待身边的每一个人:善待别人要求我们要有爱人之心、宽容之心、助人之心。善待别人,其实是在给自己创造一个更为宽松、自由的生存环境,从而让成功之路充满更多的快乐。善待别人是不必……
来,或者不来,我亦难过我难过你来看我,成了一种委屈来难,去也难我难过你来看我,成了一道选择题来,或者不来我难过你说,我听说你的选择,听我的无奈我……
解读上海市闵行区兰香湖的方案低配版的奉贤区金海湖,聊胜于无2021年4月,上海市闵行区兰香湖的建设方案公布,原本以为平凡的方案,也有着一次亮点。上海市闵行区兰香湖本身也是模拟了奉贤区的金海湖(上海之鱼),它相当于低配版的奉贤区金……
争着照顾9旬母亲的四兄弟为什么会被人民日报转载?善良是一种美德。它是健全有力之心灵善良的表现,是厌恶自私和恶毒的战斗性的表现。孝心,那就是爱,就是对自己炽热和高尚灵魂的感受。它就是对恶毒和自私的子女予以蔑视的广泛性体验。……
一笑三语隐晦隐藏隐忍四聊低调做人一笑三语:隐晦、隐藏、隐忍四聊低调做人这几天三语连续聊了做人要低调,常隐晦自己,不能太张扬。那么今天再聊一下谋晦之术低调做人的策略。我认为有谋方能有勇、有谋方能出奇,谋是……
相由心生,而风水由心生何谓风水?风水一说,它是一种研究环境与宇宙规律的哲学,人既然是自然的一部分,自然也是人的一部分,达到天人合一的境界!具体说来就是:风就是元气和场能,水就是流动和变化!风水就是讲……
真正爱上一个人,会有的感觉文夏莫01hr爱情来临的时候,往往让人措手不及。本来以为就是一滴小水珠,滴落在平静的心湖中,却没想到,泛起一圈一圈的涟漪,久久不能平息。从此之后人生有了新的目的,不……
2021。04。20作2021。04。20辛丑三月初九谷雨坤纳五谷雨泽润南风暖霜露结春天地精华成籽全莫负时光亦普君(琴)~。~。~。~。~。~。~。~。~。……
乡村文学我曾在文字里游离作者:踏雪寻梅这场突如其来的疫情把我们都关在了家里整日整夜的躺在床上不停地翻看头条疫情无情人间有爱医护人员逆行赴国难人民群众齐心……
老伴儿过世后,另一半会不会难过很久?过来人说出了实话文:鱼儿无论夫妻两个人,年少时怎样的争吵和打闹,但是随着年龄的增长,他们慢慢地就会懂得珍惜对方包容对方。尤其是到了老年,彼此之间相伴了几十年。彼此早已习惯如自己一样,只是……
从来不发朋友圈的人大致是这种人八九不离十说到微信,我们一想到的是什么,当然是朋友圈了,我们加了一个陌生人的微信,首先想到的都是翻看看他的朋友圈,想要通过朋友圈来了解这个人。进而想看要不要深交,但是大家有没有发现,当我……
山河故人片段,林语堂是一个边缘人,为何?中年看山,与少年不同。少年的山,是青山,如古代文士扪虱面山而坐;中年的山,是秋山,抱膝闲着,听山中松子落。少年看水,与中年也不一样。少年满眼是生命的浩渺大水,以及远处船头……
遇到这样对你好的人,快逃杭州杀妻案开庭,遇见这样对你好的人,块头人生最大的风险是什么?选择伴侣,前段时间杭州杀妻案开庭了,时隔313天,这个凌晨将妻子分尸,用两吨水冲进马桶,面对警方问询仍能做到淡定应……
有瑕疵的人生才真实我年幼时,记得母亲每次去菜市场买蔬菜和水果,总是挑剩的买,图个便宜,回家切切、洗洗,也不耽误吃。有一次,母亲带回来几根有些黑斑的香蕉,软塌塌的,很是难看。母亲替我们剥掉香……
个人戴口罩,应该讲实效当前社会戴口罩已是必不可少的生活秩序。关键时期出门戴口罩,已受人尊重;不戴口罩要受到人们讨厌与遣责,而且还要受到制约或者处罚。这不仅是全社会防治新冠病毒流行的需要,……
女性如何保护自已子宫2018年5月吧,有一次去医院检查身体,查子宫状况,那时月经结束大约3天,让护士检查完后,身体阴道再次流血,持续近乎一周。护士粗鲁的检查手法显然伤害了子宫,导致流血。所以,不愿……
白开水加烟围魏救赵三十六计之胜战计:共敌不如分敌,敌阳不如敌阴。既然硬刚不成,那就避其锋芒,攻其要害,让你不得不分神又分身。不管是赢得时间还是赢得战机,至少在某种程度上形成牵制,还有可能反败为胜……
人性最大的善良,是不让人为难你让人舒服的程度,决定着你能抵达的高度。人为什么会有痛苦?因为人和人之间总是在互相为难、彼此怨怼,一张口就充满戾气。与人相处最舒服的状态,莫过于让彼此都舒服,……