幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

与机器人对话初探语音智能交互

  我们经常能在科幻影片里能看到各种机器人与人类同台出演,与人类自由的沟通交流,甚至比人类更加聪明。大家肯定想知道这样的人造机器是如何做到的,我们现在真的能造出这样的机器人吗?
  开玩笑,我在这绝不可能解释好这个问题,但是从另一个角度简单来讲,与机器人交流其实这是通过语音来实现与机器交互,互动的一种操作,人与机器人的沟通其核心的一个方面便是语音的识别,就是说机器人得先听懂人说话。那此文就来浅聊下关于通过语音来实现人机交互的一些问题。
  我们先看一个较简单的例子Windows语音识别程序:
  Windows语音识别功能主要是使用声音命令指挥你的电脑,实现离开键盘鼠标来实现人机交互。通过声音控制窗口、启动程序、在窗口之间切换,使用菜单和单击按钮等功能。Windows语音识别功能仅仅限于Windows系统体系内的一些常用操作和指令,并且是与监视器显示辅助来完成整个语音操作。
  例如你想用语音通过主菜单打开某个程序,当你说出开始后,系统将会提供一个显示编号的区块划分功能,(编号是半透明的,使你能知道此编号下是哪个程序或文件夹)这样假如你想打开下载这个文件夹,你只需说出它的编号10,程序就会给你打开下载这个文件夹了。这样做的原因一是因为:如果你需要开启用户自行安装的纷繁复杂的程序,Windows的语音库里面可能没有这些程序相应的名称,会造成识别不准,甚至无法识别,二是通过显示编号,和语音识别编号,响应指令的效率更高,因此这样语音配合监视器的分模块显示大大的提高了用户使用Windows系统的效率和准确率。
  同样,如果你对桌面的快捷方式或文件进行语音操作,系统将会提供一个称之为鼠标网络的功能,对桌面进行以前区域的划分和自动编号,用语音视觉来提高操作效率和识别的精准率:
  在目前Windows的语音识别程序中,除文本的语音输入(包括文字和符号)之外,还包括16个常用命令,9项常用控件命令,31项文本处理命令,15项窗口命令,5个点击屏幕任意位置命令,以及另外的几组键盘命令。用户所能语音指挥的也就是围绕这些预先准备好了的命令进行交互操作,旨在这将有可能提高使用电脑的效率,和尽可能的把双手从鼠标键盘上解放出来。
  与此初衷相类似的我们还能在目前主流的移动设备上能看到语音识别功能的应用:
  然后我们在前进一点,再想一下假如现在我们要面对的不是电脑,手机,而是一个机器人!一位拟人化,仿真化的机器人,对比上面的例子你会很容易发现它和常用的电子设备的不同之处在于,它很可能是不会有一个我们通常所见的显示屏,那以上那些通过语音指令结合屏幕可视化辅助来进行的高效的交互方式在机器人身上就收到了限制。在这种情况下你面对着机器人,你肯定会想它在听我说话吗?它能听懂我说话吗?我说什么它能听懂?我说什么它可能听不懂?等等这样一对问题会立即扑面而来。
  其实在我们现有的技术水平和条件下,特别是面向大众商用的机器人,想做到像电影里面那种人和机器人自由交流的情景几乎是不可能。当然我们做一个产品,当然会有功能定位和市场需求等等很多方面要考虑的,那我在这里讨论的是一台为用户提供各种咨询和能进行简单语音逻辑聊天的机器人,需要如何处理语音交互方面的问题,这里以Qrobot为例,尽可能不依赖电脑屏幕,而直接来与人互动和提供各种咨询的机器人。
  人是上帝创造的,而机器人是由人创造的,在现有知识和技术条件下,在人类赋予他特定的能力之前,机器人是什么也做不了的。下面我将分几点来讨论要想实现与机器人交互沟通需要做哪些工作:
  一,给机器人提供一个大脑思想的材料:知识、语言库。像Qrobot这样提供各种海量咨询和交流操作功能的机器人,如果把所有的这些原材料堆在一堆,一旦你有求于它的时候,它可能会慌了手脚,不知所云。(机器人无法根据对话的前后关系以及语境来判断某一个词在当前情境下恰当的含义)因此我们先会把机器人的语音知识库进行分类,把不同类型和专业的词语库分开来,以提高机器人的工作效率和服务的准确度。那这样用户如需要获得哪方面的信息和功能,就要先让机器人思维进入相应的语言库中。比如你通过机器人来了解音乐方面的信息的时候,你需要让机器人进入音乐相关的语库思维中,那在这个情况下它会把你说的任何话当作音乐相关的内容或指令了。
  这里对比下苹果最近发布的iPhone4s的Siri,根据资料分析来看Siri是一个集中统一的语音分析处理中心,它通过监听用户语音,然后提取关键词来理解用户意图,(当然用户事先要知道iPhone能帮他做些什么)然后可能经过跟你确认,再触发相应的功能和服务。因此它最终提供功能咨询和服务来自于整个iPhone系统不论是本地Apps或是云端(网络APIs)已经准备整合好了的咨询信息及功能。这样的处理方式能使产品看起来更加的聪明和易用。
  当然除了被分区的专业语库外,机器人还得有个正常人的思维,即识别专业语言库以外的各种指令和普通对话,(上图的集成模式)否则的话它将只能是机器而无人了。
  二,Qrobot各分区之间的的转换以及从语音库分区回到集成模式除语音指令外,还需要假如非语音方式的的中间干预,这就涉及到触发监听和监听时机控制问题。
  从上图可以看到Windows的语音识别程序是通过一个浮动控制器开关来使机器听取你的指令与否。这里可以通过语音来让程序进取关闭状态,但是处于关闭状态则无法用语音来命令它重新启动了,这时候需要回到鼠标操作。
  iPhone的语音控制功能是通过触摸屏幕启动Siri程序后进入一个语音模式,在这个环境下用户才能使用语音操作手机和使用服务,如果退出Siri手机将不能听懂你任何声音。
  同样你不会让Qrobot机器人一直听你说话,或是你需要它提供某特定信息的时候如何让它迅速的进入相应的语音区域,高效准确的提供信息。机器人不可能用一只鼠标去操作,这里我们给机器人设计一个响应区和相应手势:
  1,用触摸响应区域来控制机器人听或不听指令
  2,用触摸响应区域配合语音指令的复合方式来切换机器人的语音库
  或使用特定规范的词语句来激发机器人进入或切换语音区来高效准确的获取信息。(同样也分以上两类指令)
  另外在不同的情况下,机器人听用户指令的状态也是不一样的,比如在对话状态下,机器人需要连续语音识别,这既基于情境需要同时也基于语音技术,而比如在功能操作或者咨询获取的以及机器人自己说话的时候并不需要连续语音识别,而是设置一个适当的语音监听时长,一旦超出这个监听时间,机器人则不进行识别,也不会造成误听和误操作。
  三,同一个话题的表达可能会有很多种表述方式,同样任何问题的答案也都不是单一的,因此第二个工作是需要让机器人能尽可能的听懂关于一件事情的各种不同表述方式,和让机器人响应你的请求或问题时每次会以不同的方式甚至情绪来表现出来(这样能让机器人显得更加的聪明和人性化)。
  如上图,由于语言的灵活性和丰富度,在语音库的配置上面就需要在输入和输出两方面做大量的工作,这包括本地(机器人内置存储空间)和云端两块。
  对一个指令的意思需要在语库中准备和配置好多种的语言表述方式,和可能的关键字词,以便在用户使用的各种表述方式的情况下都能准确的判断出指令的意图,来提供准确的反馈和服务。
  另一方面,当机器人理解了指令然后经过大脑处理之后把结果反馈给用户的时候,如上文所说,设计者不可能只有一份准备,如何既能让用户得到准确的信息,又能体现出机器人的人情味来,同样也需要做大量技术算法的储备和语句、关键字词准备配置工作等等,使每次输出既恰如其分,又灵活生动。
  由于目前我们日常能接触到的和能使用的语音交互产品不是很多,技术水平也还不能尽如人意。以上文字只从几个基础的方面浅浅的触碰了以语音识别为基础的交互及产品,那目前来说语音交互对使用者的价值可能体现在以下种情况:
  1。用户有视觉方面的损伤和缺陷
  2。用户肢体处于忙碌状态
  3。用户的眼睛被其它事情占用时
  4。需要灵活反应时
  5。在某些场合不方便使用键盘、鼠标等其它输入形式时
  但是语音交互形式相对于其它交互形式还是有其不足,比如与手指交互比,语音交互增加用户认知负担;语音交互容易受到外部噪音的干扰;还有遇到用户、环境等变化语音识别将会变的不稳定等等。我这里只是借Qrobot项目中涉及到的一些语音交互方面的问题,以简明直截了当的语言进行一下梳理和讨论,也非常欢迎对这领域有兴趣的同学来指点和讨论。

锻造造句用锻造造句大全151比如上上个月的迷惘城拍卖会上,便出现了一件矮人锻造大师穆塔雷亲手制作的寒冰夜刃,据说这件东西最后被精灵领地的星光永耀工会以九千金币的天价标走。152,占据了最为富饶……花千骨番外之桃花无尽与君长留第六章花千骨番外之桃花无尽与君长留第六章花千骨上不去茅山记起林随意匆匆走时留下的一句话要上茅山办法只有问异朽阁主花千骨匆匆下山白子画跟上,去了异朽阁,之后又去……趣味网站大全检测你对颜色的敏感度:http:www。spectralcolor。comgamehuetestkiosk网购我爱帮:网购导航!购物返现http:www。wg528。cn……游击战洗漱完毕,我飞一般地奔进父母的房间,跳上床,找弟弟小宝打游击战。小宝一见我的身影,就咯咯咯地笑了起来,抓起一床被子挡在自己面前,好像指望我没发现他,可是我怎么可能没有看见……二愚人和鼓两个愚人听见一面鼓在那里咚咚的响着,他们互相说道:一定有人在鼓中发出这种咚咚的声音。于是他们观望了一会,当打鼓的人走了开去的时候,他们便在鼓的每一面各穿了一个洞,各把自己的手伸……宝宝断奶当断即断招让宝宝顺利戒奶宝宝什么时候可以开始断奶呢?很多新妈妈都不了解,接下来我们就来了解一下。断奶的最佳年龄?宝宝自从4个月开始添加辅食逐渐的增加品种,一般67个月就可以吃稀饭或面条,先……怎么预防卵圆孔未闭卵圆孔一般在生后第1年闭合,若大于3岁的幼儿卵圆孔仍不闭合称卵圆孔未闭(PatentForamenOvale,PFO),成年人中约有2025的卵圆孔不完全闭合。卵圆孔未闭是目前……血脂康使冠心病患者死亡危险降低全国心血管病防治研究办公室日在北京公布,国家九五重点攻关课题血脂康调整血脂对冠心病二级预防的研究取得重要突破。研究表明血脂康使冠心病患者死亡危险降低。卫生部课题评审专家组……冲出造句用冲出造句大全91、当列车冲出轨道我们竭诚互助!92、这个勇士在敌群中冲出了一条路。93、他说:我看见那位冠军正准备开始他的卫冕拳击赛。他在自己等开场的角落里跃跃欲试、急不可耐,……客场造句用客场造句大全六十一、在米兰的努力消失之前,开始时的表现让人印象深刻,安切洛蒂面临艰苦的诺坎普客场之旅仍然乐观。六十二、东部决赛第五场,骑士队客场挑战底特律活塞队,詹姆斯奉献了狂砍48……爆胎记时间过的真慢,终于该上我梦寐以求的常青藤作文课了。去常青藤的路上,我看见了田野里真正美好的景色,令我如痴如醉,看着那一排排高粱长得如此丰满,那硕大的果实将枝杆都给压弯了腰……梦见坐电梯是预示要升职吗从心理学角度来看,在很多时候,电梯象征事业和奋斗的环境。上升和下降可以对应社会地位的升降,关于事业和奋斗的梦中,经常会出现交通工具,这是心理能量释放的象征,但是电梯不同于汽车或……
为什么好男人都被选走了在茫茫人海当中,要如何去判断谁才是幸运被你选中的那位。图片来源:shutterstock。如何选择适合自己的伴侣,这过程中有许多因素会左右我们的决定。演化心理学的研究告诉……十篇经典感恩和怀念母亲的文章精选2011092305:33母亲,是在我熟睡之时将掉在地上的被子偷偷的盖在我身上的人。母亲,是将鸡蛋藏在我碗底自己端着一碗素面在我面前吃得津津乐道的人。母亲,是每年春节都给……新时代新青年谈在祖国发展中成长2018年高考作文题:新时代新青年谈在祖国发展中成长今天,众多2000年出生的同学走进高考考场。18年过去了,祖国在不断发展,大家也成长为青年人。十八年来,祖……播下一颗善良的种子在阳光明媚的早晨,一只活泼可爱的小兔子把我带到森林里,因为我是一粒板栗种子,需要寻找一个生长的地方。小兔子拿出一把小铲子在泥土公公的头上挖了一个洞,轻轻地把我放进去,悄悄……兔死狐悲的疑问兔子死了狐狸为什么会这回呢,咱们说一说这个兔死狐悲。兔死狐悲呢,也是个成语,哎,兔死狐悲,物伤其类。这句话流传很广啊,以至于各种辞书,都把兔死狐悲这个成语比喻成什么呢,比喻成因同类的灭亡而感到悲伤……严厉中的母爱走出了学校,天空特别的晴朗,空气也异常的清新,鸟儿在枝头歌唱,校门口那一排排整齐的竹子都兴高采烈地立起身子。原本马路上刺耳的喇叭声,我听来也是一首欢快的合奏曲。刚到家门口……给同事发喜糖是散装还是盒装结婚的时候一般都会发喜糖,这是结婚必不可少的一个环节。在发喜糖的时候,需要注意很多的细节,比如喜糖的选择、包装以及派送的时间等。那么给同事发喜糖是散装还是盒装好呢?下面让我们具……如何和喜欢的女孩搭讪在本文中:找到共同话题与你心仪的女孩搭讪搭讪自己喜欢的女孩会让人脸红心跳,语无伦次。如果你确实遭遇过这样的尴尬,不妨读读下面这篇文章,它将教你如何自如地和自己喜欢的女孩交……蒙毅简介蒙毅是怎么得罪赵高的太史公司马迁在《史记》中这样描写秦朝蒙氏一族:蒙氏秦将,内史忠贤。真的不需要太多的冗赘的词语,蒙氏一族对大秦王室就是这么忠心耿耿。从蒙毅的爷爷蒙骜来到秦国,为秦国开天辟地……网络订票的优缺点随着网络技术的发展,网络订票开始慢慢地渗透到人们的生活中,只需一台电脑,查询、购买、付款都在虚拟的空间里进行,让订票成为了一件轻松的事情。那么网络订票的优缺点是怎样的呢?下面本……夢園耕錄黑月之光那个时候啊,母亲斜靠在躺椅上,把盖在身上的毛毯往下拉了拉,我真是糊涂胆大,一个人跑到黄连营圩里,天漆黑漆黑的,就那么的摸到稻田里。我捋啊捋啊,摸到一根稻穗就这么一把把稻给……属于我的小幸福到站了,到这片熟悉的土地,已经有段时间没回姥姥家了,现在又踏上了这条小路,闻到了这淡淡的草香。最留恋的就是姥姥做的一桌子菜了,耳边传来了姥姥亲切的声音:凡凡,饭都做好了,……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网