语音信号处理(基于AI的语音信号处理技术)
语音信号处理(基于AI的语音信号处理技术)一、语音信号
技术思想及原理分析
语音唤醒的原理是让模型学习特定唤醒词的语音信号特征,当输入设备捕捉到一定阈值范围内的语音信号时,当前设备将会被唤醒,否则平时设备都处于待机状态。比如小米音箱这款产品,我们在使用的时候,一般都会喊一声小爱同学,然后再让它执行我们的命令,比如换一首歌,或者减小音量。这个小爱同学所发出的语音信号就是模型要学习的标签,当模型学到一定的标签数量时,下次再听到这个标签的声音时,就会做出反应,设备也就被唤醒了。语音唤醒的方法有很多,有基于传统机器学习的方法,也有基于深度学习的方法,这里只分享一些目前比较流行的深度学习方法,比如有基于CNN的KeywordSpotting模型、基于CRNN的KeywordSpotting模型、基于SEQ2SEQ的KeywordSpotting模型等。无论是那种方法,一般会将先语音波形图转成频谱图,频谱图通过Mel滤波器组得到Mel频谱,然后在Mel频谱上进行倒谱分析,获得Mel频率倒谱系数MFCC,MFCC就是语音的特征;这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。这样就可通过这些倒谱向量对语音分类器进行训练和识别了。
应用场景及商业价值
目前市场上几乎所有的智能语音产品都有语音唤醒装置,在执行任何一句命令之前,都要加上一个关键词来唤醒设备,其主要功能在于更好地执行命令,以及节能和延长设备使用寿命,如果一台语音设备没有唤醒装置,就意味着它无时无刻都是开机状态的,想要对它发号施令,就要求设备的智能程度非常高才行,不然设备很难判断你是在对它发号施令,还是在和你的朋友聊天,另外一直开机对能源的消耗和设备的使用寿命都损耗不少。
二、语音命令
技术思想及原理分析
语音命令顾名思义就是对智能设备发号施令,然后让它执行。前面在介绍语音唤醒的时候提到过,语音唤醒和语音命令的关系,语音唤醒是让设备处于工作状态下,然后才会执行语音命令。所以语音命令一定是语音唤醒之后的工作,不然语音命令将变得毫无意义。语音命令主要是一些简短的语音词汇所组成的信息,比如打开台灯、关闭台灯、灯光调亮一点、灯光条暖一点等等类似这样的带有动词的词汇都可以算是命令性词汇。其处理原理和过程也是和语音唤醒是一样的,都是通过对人发出的声波经过一系列的变化而得到的语音信号特征,最后对特征进行分类处理。
应用场景及商业价值
语音命令的应用在日常生活中也很常见,比如生活中常见的手机导航、Windows电脑程序导航、小米音箱、百度地图导航,以及一些K12的教育产品,基本都是以语音命令来控制程序的。语音命令控制程序的优势是方便快捷,对于老人和小孩,以及上肢行动不便的人更为方便。
三、声纹识别
技术思想及原理分析
声纹识别是对一个人发出的声音和存留的声音进行匹配,声纹识别作为一种生物信息被应用在各种程序中作为识别密码。它和指纹识别、人脸识别一样,在识别前,首先需要对被识别人的识别信息进行采样存库,方便以后对比识别。在深度学习中,声纹识别和语音唤醒、语音命令等其他语音操作方式一样,都是先对接收到的声波进行转换,得到频谱图,进而使用梅尔频谱倒数分析,进行特征提取。
应用场景及商业价值
声纹识别的应用主要用在一些用户信息登录识别验证等敏感的场景,其作用和键盘输入识别验证、指纹识别验证、人脸识别验证的一样。声纹识别对环境的要求较高,一般来说比较安静的环境发声识别效果较好;反之,如果环境嘈杂,则识别验证的效果较差。另外一个人的声音是随着年龄、身体状况的变化而变化的,所以并不是很稳定。虽然声纹识别有一些缺点,但是也有其优点,主要是声音获取相对容易,只要环境较为安静,声音的验证也更方便,使用者接受程度较高。
四、语音识别(STT)
技术思想及原理分析
语音识别就是对发出的语音进行一系列的转换,从波形图最终翻译成对应的文字信息,这个过程中有一个中间的特征来对应两边的语音和文本。简单来说就是先把语音转成某种特征图,然后让特征图对应到文本信息上。由于是从声音转换成文本,也称为STT(speechtotext)。语音转文本的具体技术和语音唤醒使用的技术一样,先要把波形图转成频谱图,然后根据梅尔频率倒谱系数进行特征提取,有了特征就可以对应指定的文本信息了。
应用场景及商业价值
语音识别的好处是,可以代替键盘快速输入文本信息。比如在某些聊天软件上和对方沟通时,想要发送给对方的是文字信息,但是又不方便键盘输入,这个时候就可以使用语音识别技术来自动将语音转换成文字后再发送。此外,广义的语音识别包括了所有的语音操作技术,包括语音唤醒、语音命令等一系列和语音相关的技术。
五、语音合成(TTS)
技术思想及原理分析
语音合成与语音识别的应用方向刚好相反,语音识别是STT(speechtotext),而语音合成是TTS(texttospeech),从二者的名称中就可以看出,语音合成的输入是文本信息,输出是声音信息。在技术上可以看成是STT的逆向操作。目前的语音合成方法主要有拼接合成语音和参数合成语音两种。
应用场景及商业价值
虽然目前的语音合成技术还不是非常成熟,但是在一些要求不太高的应用中已经开始应用了。目前语音合成的应用主要在新闻广播行业较为广泛,比如搜狗AI合成主播,有了AI合成主播,就可以帮助新闻机构做一些简单的广播了。当然国外有人拿这个技术配合上图像合成技术,造了一段总统讲话的视频,表情和声音还都挺像的,不仔细甄别,还真看不出来。
领奥平衡车怎么样(阿尔郎平衡车质量到底怎么样)央广网北京2月24日消息(记者黄昂瑾)简单易学、节能便携、时尚酷炫,这些特点吸引着越来越多的消费者加入电动平衡车的骑行大军。然而,电动平衡车在国内普及过程中引发的各类意外事故,……
哪里有卖高加索(哪里有卖高加索的多少钱一只)在狗市来出售宠物狗的人是各种各样的,每个人对于宠物狗的感情也是不一样的。比如今天我们要说的就是图中的这只高加索。在狗市并不常见高加索,由于高加索是一种体型较大且有凶猛的宠物狗,……
投资唐人街探案3成本多少?个人如何参与投资?电影投资靠谱吗?专注影视行业多年丰富的经验和知识铸就成功你刚好需要我刚好专业电影版权认购:17115117102或者ystz990322微信(影视大咖)《唐人街探案3》为大银幕而生的中国……
残保金怎么申报(残保金怎么计算申报)【前言】最近多地发布了残保金征收政策,一年一度的残保金申报时间又来了。即使去年申报缴纳过,但由于期间隔得太长,一些相关知识也淡忘了。那么云南远创就带大家一起来看看残保金申报的相……
斯柯达昕锐怎么样(柯锐迩怎么样)家用车如何选择?作为当前国内汽车市场的一大热点话题,家用车的选择确实困扰了很多消费者,尽管近两年自主品牌在家轿市场的发展有很大的提升,但对于大多数消费者来说,首选都会是合资品牌……
怀化属于哪个省(湖南怀化有几个县)怀化,别名鹤城,古称鹤州、五溪,地处湖南省西部,1942年置怀化县,因县治所位于怀化驿而得名。2019年末,怀化市共有国家A级以上旅游景区47处,其中4A级景区10处。……
重庆到永川要多久(永川到重庆主城多远)好消息!6月5日上午10点,重庆九永高速公路S5九龙坡主线收费站正式开通运营。该收费站的开通,极大方便了市民出行。主城市民驾车到永川,以华岩立交或大渡口立交为起点,经华岩隧道抵……
美发学校哪个好(最专业的头疗培训学校)南宁美发学校课堂分享:在美发店里,虽然大多数人都会选择泰式洗头,但还是有不少人会选择中式洗头。那么,今天就和我们看看南宁美发培训学校(丽竹美发学校)洗护班里的学员们的练习情况吧……
护士可以考哪些证(普通人可以考药师证吗)每一年的护考,都有几十万考生前赴后继,为一个护士资格证埋头复习。但护士资格证只是一个开端,作为一名护理人员,护士在未来的发展路上,还有N多证可以考取。护士能考哪些证书呢?……
ipad充电器(ipad充电器参数)ipad充电器(ipad充电器参数)2020年上半年,征拓推出了S32C1A氮化镓充电器,65W大功率输出、2C1A多接口设计,支持5APPS和多快充协议,加上罗马柱的造……
双效硬得快真实效果感受(图)坚持看完这些双效硬得快多少钱一盒:看到,一款风靡朋友圈的产品隆重上市,一种保养品,因此对人体不会造成任何的,帮你远离难言之隐,让你重展,轻而易举。双效硬得快到底多少钱一瓶一粒一板〕……
洗盘是什么意思(震荡洗盘是什么意思)逆势操作就是因为贪婪而太急于进入市场,最后演变成不肯认错一味对抗市场而深套。正确的操作就是趋势来的时候,尾随就好,直到趋势结束;没有趋势的时候,就观望、耐心等待。成功其实……
拾金不昧表扬信(员工拾金不昧表扬通报)拾金不昧表扬信(员工拾金不昧表扬通报)近日,黄女士来到静安城发集团下属静环作业一部静安寺班组道班房,说要找一位做了好事不留名、不收钱的保洁清道工,一番了解之后,班组队长唐志强才……
怎么通过手机定位好友位置(我想定位对方的手机位置)怎么通过手机定位好友位置(我想定位对方的手机位置)在日常生活中,由于手机的功能越来越强大,所以大部分人手上都会有智能手机。那么你用了这么久的手机,你知道手机上面隐藏的定位……
跳蚤市场是什么意思(大学跳蚤市场的目的和意义)6月19日,毕业季可回收物进校园活动在北京科技大学启动。该活动旨在让高值、低值可回收物实现应收尽收、再利用,校内再生资源循环利用良性运转,在大学生中倡导绿色低碳、健康环保生活理……
今日中质原油价格原油价格今日行情中国外汇投资研究院院长谭雅玲表示。公告,稿件投诉,黄金和原油是,里面有原油期货的报价信息和走势图,布伦特原油和西得克萨斯中质原油两大全球原油期货均大幅跳空低开,资金流向,股票实……
如何兑换美元(2022人民币大幅贬值)21世纪经济报道记者胡天姣、家俊辉北京、广州报道今年以来,人民币对美元汇率持续走强。11月22日,中国外汇交易中心数据显示,当日人民币对美元汇率中间价报6。3952,较前……
龙卷风是怎么形成的最近自然灾害也是比较频繁的,就在这几天内蒙古就出现了很大的龙卷风,据最新消息报道,内蒙古龙卷风致33人受伤,而且还有100余顶蒙古包也受到了影响,对于此事社会引起了高度重视,大……
什么是机械能(什么是化学能通俗一点)1。功(1)功的定义:力和作用在力的方向上通过的位移的乘积。是描述力对空间积累效应的物理量,是过程量。定义式:WFscos,其中F是力,s是力的作用点位移(对地),是力与位移间……
豪华商旅时代全新M。BenzVClass新世代M。Benz家族造型特色导入新一代Comand多媒体资讯控制系统搭载136163190hp的2。1升柴油引擎国内上市日期预估2015年Q1国内售价……
Twitter和Zoom的算法偏差问题两者都放大和Twitter在本周末因各自的算法偏差问题而受到抨击。在Zoom上,这是视频会议服务的虚拟背景的问题,而在Twitter上,该网站的照片裁剪工具存在问题。它始……
福特稳居前4大2012年新世代产品接棒福特六和2011年销售出色,Ford全年总销售量达22,118台,全年度稳居市场前4大品牌之位,比2010年成长11。4福特对来年汽车产业成长有十足信心,预估2012年车市将持……
威驰和飞度哪个好(威驰fs和飞度哪个好)前不久2021中国汽车保值率风云榜榜单正式公布,58汽车联合J。D。POWER为获奖车型进行了颁奖活动。在小型车这一细分市场的总体排名中,广汽本田飞度、广汽丰田YARiSL致炫……
釜山行哪里可以看(釜山行哪个播放器可以看)釜山行哪里可以看(釜山行哪个播放器可以看)大家好,今天咱们一起看一部韩国惊悚灾难片釜山行,老徐是一家金融公司的经理,平时的工作就是以客户的大额资金将股价抬高,然后套利赚钱……