告别智障第一步小米靠这个让小爱同学更聪明
要问智能手机上最鸡肋的功能,小编第一个想到的是人工智能语音助手:几乎不使用,扔掉又可惜。
为什么几乎不用呢?且不说别的,首先就因为语音助手们不会像人一样说话。
每和它说一句话,都要先说嘿,Siri,或者你好小艺,或者小爱同学,或者说久了小编觉得自己都快成智障了
这第一步就让人望而却步,所以,打入冷宫呗。
不过,在11月19日举行的小米开发者大会上,小米小爱同学3。0的发布引起了小编的注意,因为她有一个重要的更新:更自然的连续对话。
小爱同学也成了首个在手机上实现自然语言连续对话的AI助理。
最近,IT之家小编汐元更新了小爱同学3。0,体验了一下这个连续对话究竟是怎样的。
一、小爱同学3。0连续对话的体验
汐元使用的是小米9Pro5G版,更新时只需要对小爱同学说现在升级,她就能够自动升级到3。0版本了。
升级之后,连续对话功能不是默认开启的,你需要在小爱同学的设置选项中手动开启。
开启后,汐元尝试和小爱同学进行了一段对话:
在这之前,汐元还和旧版的小爱同学进行了一段类似的对话:
对比上面两个测试的视频,很明显,支持连续自然语言对话的小爱同学3。0比以前好用多了,体现在:
说一次唤醒词,就可以一直对话下去,不用反复喊小爱同学了;
在小爱同学话说一半的时候,你可以打断她,让她执行下一个指令;
当然,目前在连续对话下,你和小爱同学闲聊,她仍然会回答一些不合逻辑的话:
但至少,现在和小爱同学说话,在方式上很像和人交流了。
汐元觉得,这才是AI助手摆脱智障标签的第一步。
别小看这第一步。人机语音交互的终极目标,不就是要像人人语言交互一样吗?
这么,这一小步背后,又是哪些技术在制程呢?连续对话功能,究竟是怎么实现的?
二、全双工多轮交互技术到底是什么?
根据小米的介绍,他们采用的是全双工多轮交互技术。这是个什么技术呢?
首先,全双工的意思就是,在同一时间里,信号可以双向传输,即A可以发消息给B,同时B也可以发消息给A。
也就是A和B都可以同时发送信息和接收信息。
同理,半双工的意思就是在同一时间,信号只能单向传输,即要么A发消息给B,要么B发小给A。
这个差别就像是现实中双行道和单行道的差别。
全双工本身不是什么尖端的、困难的技术,相反,很早就有了。它就是在芯片层面和外部之间采用发送线和接受线各自独立的方法。
例如,电话就是典型的全双工技术,而电话已经诞生100多年了。
只是,要在AI语音交互中加入全双工技术,这就有点困难了,毕竟,你要对话的不是真实的人啊。
三、插曲:常规情况下,语音助手是怎么识别人声的
这里汐元要插一段,简单给大家说一下通常AI进行语音识别是怎么实现的。
例如,我在对语音助手说打开IT之家的时候,手机通过麦克风接受到汐元的声波模拟信号,然后将模拟信号转化为数字信号。
接着,系统会对数字信号进行特征提取,提取时会将这段语音信息分成很多小块,然后根据每个小块的特征组成音素dakaiaitizhijia,再将这些音素根据声学特征进行分类。
然后,系统会将这些因素和自己的语言库进行比对,根据语言的规律,找出对应的文字。
接着,系统还要根据文字进行自然语言理解,去理解文本的含义,然后找到答案,最后去进行自然语言的生成,输出回答语音。这个过程中,需要强大的对话引擎参与。
目前对话引擎主要分为检索模型和生成模型。
检索模型,意思就是从知识库中检索最相近的问题,然后找出对应的答案。
图片来源:微软小冰技术讲解PPT
生成模型,这个有些抽象,通俗说就是根据神经网络训练的结果来给出答案。这个答案是AI自创的,不是检索数据库得到的。
所以,在算法不成熟的时候,AI的回答可能会有些不合逻辑。但这个更符合连续对话场景的需要。
小爱同学大部分时候采用的就是生成模型。
这相当于AI助手完成一个语音识别并回答的过程,也可以理解为完成一个半双工的过程。
四、全双工交互的难点和解决方法
那么全双工下有什么不同呢?
首先我们知道,对于AI助手而言,全双工就是输入、输出可以同时进行,这本身不是什么难点,毕竟电话都能做到了。
难在哪里呢?难在你和AI交互的时候,一旦全双工,会带来整个系统性的问题需要解决。
包括:
第一:怎么全面地降低功耗?
第二,连续对话是一个长时间的过程,怎么消除噪声干扰?这个噪声包括杂音,还有你不是对AI说地那些话。
第三,AI怎么理解、记住上下文语义,让对话能够继续下去?
第四,AI在说话时,你也说话了。AI怎么判断你是不是要打断他,也就是怎么避免被误打断。
还有一个比较远,就是AI和你持续对话时,能不能判断什么时候沉默,什么时候打破沉默,要不要引出新话题?就是让你觉得你说话的对象不是死板、机械的。
能够解决这些问题,全双工也就能普及了。
上面这些问题,其实目前都没有十全十美的解决方案,但已经有可用的了。
具体看小爱同学,怎么解决呢,
1、连续对话免唤醒
这个技术需要解决一系列问题。
连续对话免唤醒,也就是只唤醒一次,就可以多轮对话。现在你每说完一个指令,AI不会歇着,而是随时待命。那么问题来了,首先怎么降低功耗呢?
有一个办法是分级处理。比如说,我向小爱同学下达了一个指令,她响应后,不会像以前那样休息,而是继续待命,等待再有人声被检测到。
等待的过程中,她不会做复杂地监听,而是第一级先简单处理噪音,再做二级高精度处理。等有人声出现,才会进行声纹识别等操作。也就是说,她是逐步提升计算性能的。
还有一点,也有利于降低功耗,就是语义拒识的算法,这个不仅是去除噪声,也可以检测到环境中,包括人说话中一些没有语义意义的音频片段(例如音乐声、尖叫声,说话中的嗯啊口语等),然后将他们去除,这样也可以节省后端处理的计算资源。
当然,降低功耗也离不开硬件层面的进步,这是软硬结合才能实现的效果。
然后就是,过去你在唤醒词后面就是要对AI说的,现在连续对话了,AI怎么知道你是对它说话呢?
这里有一个过程叫语义选择。通俗理解,就是当AI收到人声,进入语义分析的环节时,它会先看看这句话的意思是否跟我这个设备覆盖的语义规模、意图相吻合,从而判断当前人是不是跟设备说话。
汐元也模拟了一段包含噪声、不同说话声的测试场景:
小爱同学很稳地过滤掉了背景的音乐噪声,完全没有受到干扰。
周围的其他声音中,汐元本人的说话声,小爱同学基本都能准确识别出来。而另一台手机播放的声音,有时候会对交流造成打断,有时候也能识别完整的语义,有时候则只能识别只言片语,然后给出错误的回答。
这说明,小爱同学已经具备在复杂环境中识别指令的技术,但是,判断的准确性还不太完美。
目前还有一种多模态交互的技术,就是除了语音之外,终端还会配合其他的传感器,特别是视觉方面,这样,AI就能更加精确地判断用户说话地意图了。
2、让对话稳定持续下去
在连续对话中,怎样让对话持续下去呢?
首先要让对话显得自然,不出错。我们在和语音助手交流地时候,经常会发现,你说话地时候,稍微停顿长一些,AI的识别就停止了(以为你说完了),然后给出一个错误的回答。
这种情况,小爱同学的解决办法是,在云端根据用户说话节奏和内容,进行动态断句,这可能需要一定时间的学习。
在回复时,则可以适时的回复嗯等人类常用的接话话术,这样,系统就打破了对说话规则的要求,用户也可以按照自身的说话习惯来进行交流。
怎样理解上下文呢?说实话,这目前还是AI语音助手的一个难点。
这一点上,小爱同学的思路是,引入交互认知智能的概念,简单说就是她在分析语义的时候会思考,会解读当前所处的语境环境,并结合历史任务,判断用户的意图到底是什么。
这其中,涉及一些专业的技术,例如跨技能的上下文处理、多引擎(信息检索、任务)的融合、指代消解、知识推理等。
指代消解是这里一个很重要的技术,大意就是能够理解上下文代词的意义。跨技能的上下文指代消解,就是在不同场景下也能判断代词。
例如汐元对小爱同学说:今天上海天气怎么样?然后又说导航去那里,查天气和导航是两个不同的技能,小爱同学就能够理解其中的代词。
然后还有一点,是防止误打断。这一点,小爱同学也有对应的技术,可以在对话的过程中,实时判断是否需要打断,不容易出现误打断,同时,对没有语义的输入,则不会打断语音合成播放。
3、让对话更有灵性
最后还有主动交互的技术,它可以智能判断,甚至主动打断用户的啰嗦的表述,当对话陷入冷场时,也可以主动打破沉默僵局,实现流畅自然的用户口语交流习惯。
这个技术暂时还没有完全成熟的应用,不过在不久的将来,相信我们会看到更有灵性的AI助手。
总结
小爱同学3。0第一次将全双工多轮对话的技术带到了手机AI语音助手上,从而实现了连续对话的能力,正如汐元所说的,这是手机AI助手真正可用的第一步。
不过,汐元也了解到,这个技术此前在一些品牌的智能音箱产品上已经使用了,这说明,全双工的语音识别,是一个趋势。
当然,全双工的语音识别技术还没那么成熟,也需要更长时间的技术优化,但好歹,它已经让我们看到了AI助手在未来的无限可能性。
手机号码怎么注销(手机号不要了怎么注销)相信很多朋友都在一卡通查中查询到有蜗牛移动号卡,且无法注销的烦恼,这里就给朋友们奉上注销办法。1。蜗牛移动服务号公众号2。点击服务菜单,选择服务中心,进去后点击在网……
生小孩需要多少钱(怀孕前需要做什么准备工作)最近三胎话题热度不断,简直是炸开了锅,很多人纷纷表示婚都不想结,更别说三胎了,然而三胎热度还未消散,一波未平一波又起,近日全国人大代表朱列玉提出建议:延长产假至3年,使得妇女生……
在职研究生有哪些(在职研究生有哪些学校)在职研究生是一种主要为在职人士开设的硕士项目,很多同学想要报考,但是不知道有哪些院校正在招生,今天小编就来为大家介绍一下。1、中国人民大学招生方式:高级研修班、在职……
口红保质期一般多久(口红保质期过了能用吗)我们通过各个平台向全网的小仙女们征集过期的口红,没想到后台炸了,一下子收到了全国各地寄来的200多支不同品牌色号的口红。不得不提前终止征集活动,不然我想2000支也是有可能的。……
看漫画的网站(推荐5个超好用的漫画网站)看漫画的网站(推荐5个超好用的漫画网站)最近,看到很多朋友挺喜欢看漫画的。今天呢,就给大家推荐几个不错的漫画网站。1。搜漫搜漫是一个全网漫画搜索引擎。无论是国……
中国电信adsl(家用宽带光纤和ADSL选哪个好?)中国电信adsl(家用宽带光纤和ADSL选哪个好?)随着网络数据通信、视频点播、可视电话、电视会议、大型网络游戏等业务的迅速拓展,人们对网络宽带化、高速化的要求逐渐提高。……
谁的人生不是一边失去,一边拥有我们眼含泪水哭着来到这个世界,又在别人的泪水和哭声中离开这个世界,中间的过程被叫做人生。谁的人生,不都是在一边失去,一边拥有。说不清的,是人;想不通的,还是人。……
大众是哪个国家的(德国进口大众车型大全)2019款进口大众Tiguan外观风格具有一定商务范儿,成熟稳重但又不失动感。Tiguan车头使用了大众SUV家族化设计语言,三条幅式的镀铬中网与左右大灯相连接,视觉效果十分硬……
逐步排除人生急状态随着经济的高速发展和社会的深刻变革,人们的生产生活节奏不断加快,大家时常处在急忙忙、急怱怱、火急火燎的状态当中,浮躁的分子越来越强烈,这是严重影响人们幸福感的负面心理,人生不要……
看了跳出我天地这部片子如果你不哭,我就去吃屎差一点和这部好片擦肩而过。长时间的罢工运动,让父亲在圣诞节(相当于中国的春节)的晚上,控制不住地像个孩子一样的抽泣。一人工作,要养护2个孩子和一个有病的老母亲,长时间的停……
南瓜怎么做好吃又简单(南瓜的6种做法)南瓜怎么做好吃又简单(南瓜的6种做法)南瓜的6种做法,家常营养还味美,囤上30斤都不够吃,老少喜欢!冬天来了,作为爱囤猫冬菜的北方人来说,家里要是没点囤货那都不叫过冬!萝……
etc怎么办理(各银行ETC优缺点)ETC安装现在完全免费。无论到哪里,在ETC服务点渠道和银行办理都不需要付费。如果有人说ETC安装现在需要花费,请立即离开。这是个典型的骗子。如果问支付宝、、银行这三种方……
致粉友们的一封信亲爱的粉友们,首先我在这对你们致以衷心的感谢。感谢你们对我最真的关注与支持,让我拥有百粉之多,是你们圆了我百粉之愿望。这对我来说也是很开心的事,你们每一位的金手指一……
爱自己才能更好的爱别人只有自己舒服了,才能让别人舒服。好好爱自己,才能更好的爱他人。这段时间思虑真的是太多了。孩子上幼儿园的问题,小花园除草翻地的问题,园里花花草草虫害问题,家里物……
中国大革命赋一九二四年,革命风旋。神州大地,一片硝烟。帝封制肘,外患内乱;国民革命,血溅轩辕。孙公中山,一代伟人。应时为民请命,志安社稷;组建国民政党,肇开新元。联俄联共,至明至圣;扶助农……
女人最讨厌男人发四种信息,你发过几种?男人经常会遭遇跟女人发信息不欢而散,女人通常不回男人的信息,让男人摸不着头脑,即使感情终结也不知道终结的原因,其实是因为男人的信息等同于感情危机的导火索,感情是成也信息,败也信……
命运的安排随着年龄增长,岁月的流逝,身体机能逐渐下降,各种偶然性因素决定着我们的命运,生命不堪一击,意志的强大抵不过随时发生的意外,我们只能在意外或失败来临时安慰自己接受命运的安排。……
判断一个女人是真有钱,还是装有钱,看这些细节就知道塞缪尔约翰逊说:既会花钱,又会赚钱的人,是最幸福的人,因为他享受两种快乐。可见,钱真的是个好东西,它不仅能给我们的人生带来十足的物质享受,也能同时增加个人的自豪感和成就感……
富不入三地,穷不近二人,处理好这7种情况,给人生开个挂人的一生是崎岖坎坷的,有贫穷的时候,也会有富有的时候,无论我们处于什么状态,都想着能够变得富有。在一个人穷的时候想要变得有钱,在一个人有钱的时候想要变得更有钱,这就是人的本性。……
清华女博士杭婧,曾师从颜宁和施一公,如今怎样了?中国著名的女性生物学家里,颜宁占据了一席之地,她在该领域成就非凡,特别是跨膜转运蛋白的结构生物学研究领域取得了一系列成果,具有里程碑的意义。颜宁而众所周知,颜宁曾师……
三十一面入天台寿昌寺罗汉殿内供字款洪都窑五代青瓷折沿净手盆墨者甄越窑藏品赏析宋代诗人张伯垓写有一首诗《寿昌寺》:尘埃终日事无穷,不得探针闻远公。莫讶殷切题粉壁,重来应见碧纱笼。另一宋人毛国华也写诗一首《寿昌寺》……
有一种情结叫舍不得说到舍不得很多人应该会说,那是因为你放不下。是啊,如果舍不得,肯定就是放不下,放的下的,又怎么会不舍得?去年7月,朋友送了我一条小泰迪狗,我爱不释手,对它宠爱有家。虽说它……
面试官问你的优点和缺点有哪些?千万别做这五种愚蠢的回答如果在面试的时候遇到面试官问这些问题,你的回答就决定着是不是会录用你,而且从你的回答里面能够知道你的工作方式,你的个人的城市在哪儿,千万不要做下面5种方式,愚蠢的回答,每一个都……
我喜欢夜的黑我喜欢夜的黑,就像倦鸟飞向自己的巢穴。只有在夜光下,我那瘦弱的身影才略显高大。我喜欢夜的黑,就像游子思念故乡。只有在夜的包裹里,我的头……