紧跟着微软的步伐,北京时间凌晨,Google召开了今年的IO大会。和微软的Build大会类似,GoogleIO也是一个开发者大会,在大会的主题演讲中,Google也会例常得发布一些新东西。 最近几年,Google在AI领域内取得了不少惊艳的成果。在硬件方面,他们研发出了TPU,在处理AI计算时,他能够爆发出相当强劲的性能。TPU向Google提供了其他公司难以企及的超强算力,GoogleAI的飞速进步和与其基础设施的强悍是密不可分的。 在软件方面,去年IO大会上的电话AI系统Duplex给笔者带来了极大的震撼,它合成出来的语音相当自然,通话的对方并不能察觉到自己是在和机器对话,而且在整个对话的流程中,Duplex的响应非常流畅。 Duplex背后是Google近两年大力投入AI研究后研发出来的一些精华技术,例如合成语音时所用的WaveNet。这些技术实际上很早就有Demo了,只是在当时这些技术Demo并没有引起很广泛地关注。 Duplex这套系统的诞生代表着Google已经拥有了将前沿AI技术沉淀、消化,将其综合起来转化为实际应用的能力。 今年的GoogleIO大会上,AI仍然是主要内容。近几年Google对AI是越发地看重,在决定由MobileFirst转向AIFirst后,每年Google在AI领域的投入都在加大。 在IO19的开场,会场大屏幕上打出了Keepmakingmagic(持续创造魔法)这样的Slogan。 在深度学习技术流行后,很多原本计算机所不能实现的功能、只存在于幻想或科幻电影中的功能正在被实现、正在变成现实,给人的感觉就像是梦幻的魔法一样。计算机开始有了认知能力,在现有AI技术的加持下,计算机开始能够识别多样化的场景、开始能够理解语言、开始能够和人进行智能的交流。 目前我们所看到的各类AI应用仅仅只是AI技术发展初期的产物,在AI这条路上,科技巨头们还有很长的路要走,Google通过这一开场传达了他们将继续致力于AI研究并持续尝试用AI改善生活的理念。 Google在这一次IO大会上拿出来的新东西都很贴近普通用户,而微软在Build大会上拿出来的新东西有很多更贴近企业和开发者。这种差异的存在主要是因为微软主打的Azure以及AzureAI本身就是面向企业提供,而GoogleAI则主要服务于使用Google系产品的普通用户。 和微软情况不同,目前Google的搜索引擎仍然是Google的一大支柱,所以在IO开始时,Google就先介绍了他们对搜索引擎做出的一些改良。 在搜索引擎中,Google添加了对3D模型查看的支持,比如你在搜索引擎中搜索新百伦的运动鞋,在搜索结果中你可以通过Viewin3D这个新的选项查看它的3D模型。 这项新功能的应用面很广,它可以用于让商家全方位无死角地展示自己的产品,也可以用在教育领域,让学生通过带有动画3D模型更进一步地理解专业知识。 3D模型的显示与查看是支持AR的,你可以直接将这个模型的显示叠加到现实的场景上,例如Google在现场演示的近距离观察动物。 这个演示过程中有一个点很有意思,这个白鲨的模型从演示开始到结束都很稳定,没有出现什么明显的抖动、位移、缩放。对于AR应用来说,想要让AR中的3D模型保持如此稳定的状态并不是一件简单的事情,模型的稳定是Google技术实力的一个非常好的体现。 说到AR,在后续Google展示了更多基于GoogleLens的AR应用,例如在一个饭店中,你使用GoogleLens对准饭店的菜单,它会为你自动框选出推荐菜品。 通过手机屏幕。你可以非常直观地看到这家店有哪些菜是受食客欢迎的、是时下流行的。 你可以直接在界面中呼出子界面,查看相关菜品的图片,这可以说是非常智能了。 类似地,你也可以用GoogleLens去拍摄一张小票,GoogleLens会自动对画面内的小票进行识别,并自动为你计算出你该付的小费。在有小费文化的美国,这一功能可以说是相当实用的。 当然,GoogleLens也支持通过AR在静态内容的基础上为你展现动态内容,例如你用GoogleLens对准一个食谱,它可以在食谱上自动为你播放这道菜的制作流程。 类似地,这一功能也可以扩展到报纸、杂志等等,其发展空间是非常大的。 在翻译上,GoogleLens现在可以做到直接在现有画面的基础上直接叠加格式类似地、翻译好的文字,虽然看上去会还是会有一些不太和谐,但是相较于国内一些App只能提取文本,然后在App页面内显示翻译结果来说,这样的功能显然是实用不少。 当然,它也支持直接朗读画面上的文字或对画面上的文字进行实时的搜索。 这项技术有AI在背后做支撑,值得一提的是,得益于Google在近一年中对AI模型优化的努力,其背后的这一套AI模型被压缩到了100KB,这意味着它可以直接利用手机本地的算力在任意手机上直接运行。 类似地,GoogleAssistant语音处理部分的AI模型也得到了优化,这一模型直接被优化到了500MB,这意味着它完全可以运行在用户的手机上。 原先你的输入需要在Google数据中心进行处理,现在得益于模型的优化,这一部分数据处理将转移到你自己的手机上。 这能极大地提升GoogleAssistant的响应速度,它可以直接在本地完成识别这一操作,不再需要将录音传至云端,并等待云端回传结果。根据Google在大会上的说法,这项优化可以让GoogleAssistant的响应速度提升整整10倍。 这一项优化在短期内将会让GoogleAssistant和其他厂商的语音助手拉开不小的差距,因为其他厂商的语音助手都要依赖网络,其响应速度不可能会快于优化过的GoogleAssistant。 响应速度的提升能够让GoogleAssistant在短时间内对用户发出的一串不连续的指令做出高速的响应,例如你可以对它说回复短信,内容是:xxxxx,将我最近在黄石公园拍摄的一张动物照片发送给他,得益于其在响应速度上的优化,这一系列指令能够得到快速、高效的执行。 在执行这一长串不连续指令时,用户并不需要反复触发唤醒词,这极大地提升了语音人机交互的体验。 在新的GoogleAssistant中,AI可以理解你的人际关系,Google称其为PersonalReference。 举个例子,AI在分析人类语言的时候,如果它遇到了momshouse(妈妈的住所)、momsbirthday(妈妈的生日)这样的短语时,AI没有办法去理解它,因为AI并不知道其中的mom指代的是什么,而它又关联到了哪些信息。 在PersonalReference的加持下,它能够理解这些词语指代的是什么,并且给出准确的回应。 PersonalReference并不局限于理解你的人际关系,它还能够理解你的日程等等。 基于这类更高级的语音交互界面,GoogleAssistant将会为用户提供一个对驾驶十分友好且安全的驾驶模式。 在司机驾驶的过程中驾驶模式会主要通过语音来和司机进行交互,这样司机并不用分心去操作手机上的图形界面,他们的视线不会离开道路。 GoogleAssistant会自动为你进行导航、获取周边的信息,同时它还能根据你的需求播放你想要的电台、音乐,对于打进的电话,它也可以完全用语音来与你进行交互。 这个驾驶模式虽然看起来很简单,但实际上其内容很丰富。它之所以看起来简单是因为很多图形交互界面已经被Google转化成了语音交互界面,而且GoogleAssistant的高度智能化能够让这一驾驶模式只在界面上显示必要的信息,简单实际上是界面上信息冗余的减少。 在大会上,Google在去年Duplex理念的基础上开发了DuplexontheWeb。这是一项用于网页的Duplex,它和去年的电话AI一样主要是减少用户预订服务时的麻烦。 Google提到在网页上预订一些服务的时候,我们可能需要填写非常复杂的表单,这些表单往往是个人信息以及预订服务的相关信息。DuplexontheWeb能够直接为你完成这些复杂的表单填写,用智能将用户体验优化到极致。 对于习惯性使用网页来预订一些服务的用户来说,这个功能是特别实用的。 得益于AI模型的优化,现在语音转录文字的AI模型也能够直接运行在本地,运行在每一个用户的手机上。 它能够为听障人士实时转录周围人说的话,也能够在视频播放或直播等场景下实时地生成字幕。由于这一功能已经不再依赖网络,所以其运行速度、响应速度都非常快,可以说几乎是实时的。 这一技术不但能够对我们这些普通人的生活带来影响,它还能够给世界各地的残障人士带来巨大的福音。 在这方面,Google还运用AI技术做了一个特别的语音转录,它面向那些因为患有ALS而说话困难的人提供,由于他们的发音很模糊,几乎没有人能够听懂他们在说什么,所以在生活中他们会遇到不小的障碍。 Google通过机器学习试图让这些模糊的声音转化成表意清晰的文字,使其能够被其他人理解。除此之外,Google还运用了对表情识别等技术来帮助一些情况更严重的患者去他人进行沟通。 相较于去年的GoogleIO大会,今年Google展示的这些AI技术都非常贴近用户、非常贴近生活,这些新功能、新技术在上线后将真实地为用户带来便利。 反观国内不少互联网公司,他们所提到的AI往往都只浮于表面,它们要么只是一个很简单的功能实现,但在宣传上却被吹得天花乱坠,要么这些所谓的AI只是运行公司的内部,和我们实际的使用体验关系不大。 这些AI并不会对我们的日常生活带来什么实质性的改变,它们确实存在着,但是作为用户我们并不能察觉到,也并不能够享受到它给我们带来的直接的便利。 Google给我们展示的这些AI功能看起来很简单,例如实时字幕,它就是一个字母而已,非常简单,但是对于用户的使用体验以及日常生活而言,这个功能的存在能够带来很多直接的改变。 Google是真正在用AI改变每个人的生活,而且这样的AI已经是我们很轻松就能看得见、摸得着的。 然而很遗憾的是,在国内的我们由于Android的深度定制化以及Google服务无法使用的原因,我们并不能享受到这些智能给我们日常生活带来的改变。