2024-06-23
中国门锁网
网络
6010
文/光谱,来源:硅星人(ID:guixingren123)
无论肤色、阶层、国籍、身体和认知状态,所有人都应能够感受科技带来的进步。
去年,Google在I/O大会上展示了AI所取得的令人惊讶的能力。而今年,它仍然没有让我失望。
2019年5月7日,Google年度开发者大会I/O 2019在老地点正式召开。从搜索到Android,从智能助理到深度学习,这家地表最强科技公司的众多部门一展在过去一年时间里取得的进展。
今年的许多新功能、技术和体验,重点都被放在了“用AI为人服务,降低干扰、去除繁琐和提高效率”这件事上。
在本届I/O大会中,我们看到了一个从未如此强大,甚至接近所谓“通用人工智能”的Google Assistant虚拟助理。只需要用自然语言发布命令,它就可以完成过去从未想过能完成的任务;
我们还感受到围绕Google搜索的新功能带来的前所未有的体验创新,让我们在国外旅行时再也不用担心看不懂菜单、交通指示;
通过新的深度学习技巧federated learning,用户不需要上传数据,就能感受到AI模型所带来的定制化体验。Google将它运用到了十亿级用户的产品当中,让我们看到它在AI的时代保护用户数据隐私,不只是嘴上说,也有切实的行动。
这次I/O上,Google还宣布了许多面向障碍人士设计的功能,比如让为“渐冻人症”(ALS)患者的面部表情设计神经网络,从而让机器可以理解这些障碍人士的“自然语言”……
AI帮你完成重复工作
在北美工作和生活,经常在线上完成订单的同学可能经常遇到这一情况:每次都要填写大量的表格,输入重复的信息,包括姓名、联系方式、机票时间班次、车型、账单地址、送货地址等,来回在各种网页跳转,如果在手机网页上还要放大缩小页面点到表格上才能输入……浪费了大量的时间
为什么这类操作,不能像密码autofill那样自动完成?
Duplex on the web是Google Assistant的一个新能力。它的任务,就是帮助你在网页上完成任何任务。不过目前,它主攻的方向是完成订单,比如网购、租车和订票。
比如在下面视频中,用户因为出差需要租车。Google Assistant
1)通过日历提取了用户的日程、目的地和往返航班信息,
2)自动打开租车网站,确认上述信息是否正确,
3)再按照用户以往租车习惯直接选择车型,再次跟用户确认,
4)最后确认整个订单。
如果你仔细观察,全程用户只点了4次屏幕……四次!就下好了订单,完成了整个租车的流程。
为什么Google Assistant能够代替用户完成这些任务?首先,因为Google内部系统打通,Assistant可以读取用户的Gmail、日历以及保存好的付款信息,从而免去用户手动输入。其次,Duplex on the web本身是一项非常复杂,但在提升用户效率上效果拔群的技术。它的核心是一个递归神经网络(RNN),执行包括自然语言理解、处理、语音识别、文字转语音、信息录入等多种任务。
去年我们报道过,Duplex 可以模拟出一个自然声音,替用户给餐馆、酒店或理发店打电话,展现出了强大的自然语言计算能力。
其实,Duplex的本质就是一个专门做“下订单”这件事的聊天机器人。不过,去年的Duplex和今年的 Duplex on the web区别在于:前者的交互就是聊天,基于语音识别和自然语言处理,后者更强调让AI完成基于图形界面的交互工作。
该功能将在今年晚些时候面向美国和英国市场推出,支持所有内置Google Assistant的Android手机,可以完成的任务包括租车和电影票。
无疑,如果你已经在使用Google产品,Google就已经拿到了你大量的数据。在无法离开谷歌全家桶/没有更好的替代方案前提下,我们自然会希望Google为我们带来更多的价值。Duplex on the web就是这样一个功能,它帮助我们完成高重复性的工作,带来了效率和体验的提升。
更快、更聪明的虚拟助手
今年,由于在递归神经网络技术方面的进步,Google将新版Google Assistant背后的神经网络模型大小从数百GB缩小到了不到500MB。这意味着两件事:
1)Google Assistant终于可以不需要和云端相连,在本地使用了;
2)正因为不需要联网,它的语音识别、响应和完成任务的速度显著提升了。
现场演示的效果令人震惊。随着演示者说出命令,句子说完的一秒钟之内Google Assistant已经执行完毕:演示者命令手机打开计算器、日历、浏览器等软件,以及约翰·传奇的Twitter页面,Assistant都迅速完成了任务。
演示者让Assistant在Google Photos里找到所有黄石公园的照片,Assistant很快就找到了那些照片。演示者又追加了一句“the ones with animal"(完整语境:黄石公园所有照片里有动物的照片),虽然命令里没有任何语境,但是Assistant仍然正确找到了响应的照片。
当回复邮件时,Assistant还能理解演示者所说的话属于邮件正文,还是“标题:xxx”这样的命令,并作出对应的操作。
全程,演示者没有触碰屏幕哪怕一次,所有的任务都通过语音完成——虚拟助手的执行能力和效率已经和钢铁侠的贾维斯差不多。而且因为不需要联网,现场的演示是在飞行模式下进行的(视频仅为示意):
Google宣称,因为可以在本地运行,新版Google Assistant理解和处理请求的速度比当前版本快10倍。不仅如此,新版Google Assistant的自然语言理解能力比前代有很大增强,现在可以连续追加请求,不用每次都加一句"HeyGoogle/OkGoogle",而且还能跨应用程序完成任务。
可能是因为对手机计算性能或者特殊硬件有要求,Google宣布下一代Pixel手机才可以使用新版Assistant。不过按照惯例,新功能发布半年到一年之后,因为Google对神经网络模型的持续优化,老款设备应该也会支持。
对于普通人来说,Google Assistant的改进效果可能并没有那么显著,毕竟大部分人都有灵活的双手,也不一定认为语音控制就是最合适的交互方式。但是,对于双手行动不便的障碍人士,更快的响应速度,以及对语音控制的更好支持,意味着当他们使用手机时,也可以享受AI,享受Google Assistant对生活和工作带来的改善。
让AI对障碍人士一视同仁
在本届I/O上,Google为障碍人士带来的福利,可不止上面Google Assistant这一条。
关注科技进展的朋友可能都听说过,即便是在基于神经网络的人工智能中,也存在偏见(bias)。这偏见可能来自于AI的开发者,但更多时候原因是结构化的。比方说,作为训练数据的有色人种照片太少,训练出的人脸识别系统对有色人种的表现就很差。
同样,当训练语音识别和自然语言理解系统时,我们需要使用大量中文或者英文的高精度语料。但是,许多开发者没有想过的是:发音障碍人士(比如聋哑人)的口头表达能力很差,他们的发音对于普通人来说很难理解——那么,他们就不配享受语音识别和自然语言技术进步带来的成果吗?
Google显然不这样认为。在I/O2019上,该公司宣布了内部正在做的几个专门解决此类问题的项目。
Project Euphonia就是这样一个项目。Google AI的研究人员和世界上致命的“渐冻人症”(ALS)救助机构合作,了解患者对于沟通的需求和最大的渴望是什么。研究人员将渐冻人症患者有限的语句录下来,转成声谱图的视觉形式,将它作为训练数据喂给神经网络。
训练结果是显著的。尽管Project Euphonia还在科研阶段,强化过的语音识别系统对发音障碍人士的鲁棒性已经达到了商业化产品(比如YouTube自动生成字幕)的水平。
但是,每一位障碍人士面临的障碍千差万别。比如深度渐冻人症患者和高位截瘫患者,往往连说话的能力都被剥夺,有些人只能发出“无意义”的声音,有些人还能做面部表情就已经是奇迹。在过去,这些人使用互联网,只能通过眼球追踪的鼠标/打字板,对交流形成了巨大阻碍。
针对不同的身体和认知障碍情况,Project Euphonia的研究人员找到一种定制化AI算法的方式,对声音、表情进行学习,现在已经能够准确地理解并传递患者想要表达的内容或者情绪,并控制电脑完成对应的操作。
在一个演示视频当中,一位十三年深度ALS患者SteveSaling坐在轮椅上看球赛,当他支持的队伍进球时,系统识别到了他的表情,并播放了欢呼和喇叭的音效。
播放完这个演示视频,Google CEO颂达尔·皮柴回到场上,眼眶带有一点湿润。
另一个名叫 LiveRelay 的功能,在某种程度上和去年的Duplex电话机器人非常相似。它的任务是帮助聋哑人打电话。
Google遇到的一个案例是,一位以色列聋哑人怎么都弄不好他的宽带,但是宽带公司除了电话之外不支持其他任何客服方式——没有电邮、短信和打字聊天。而通过LiveRelay,聋哑人获得了一个能通过语音和对方正常交流的“代理人”,而他自己只需要打字或者用AI生成的短语控制这个代理人即可。
有了这个技术,聋哑人也能和其他人通过电话交流了。
在这个AI驱动技术进步的年代,AI应当为了所有人而开发,它带来的进步不应该只被一小部分人所感受到。“我们需要确保在神经网络的设计中去掉偏见。”皮柴说。
如果像Project Euphonia这样的技术早几十年诞生,正好赶上霍金的辉煌年代,该有多好?
让每一位普通人的生活更轻松
所有人,当然也包括大部分人。尽管对障碍人士格外看重,Google今年也没有忘掉普通用户。
前面提到的Google Assistant改进、Duplex on the web技术,其实对所有人的生活都能带来改变。除此之外,横跨Google整个产品阵列,在今年的I/O大会上都有值得一提的功能更新。
在中国市场上,包括百度在内的搜索产品整合相机拍摄功能已经有很长一段时间了。而Google在两年前才在手机端搜索/相机app里整合了Google Lens技术。不过和同类视觉搜索产品相比,Google Lens的进化速度未免有点快……
I/O2019大会上,Google Lens获得了一个许多用户可能都用得上的功能:AR点菜……
听到名字你可能觉得无聊,点菜就点菜,搞什么AR?别着急,其实这个功能蛮简单也挺有用:在餐馆里,对着一张全是文字的菜单拍照,手机会自动告诉你那几道菜评价最好,甚至还能给你调出几张照片,方便你点菜。
这个功能的背后,生活在西方国家或经常出国旅行的中国朋友可能都感同身受:不像中餐馆喜欢放图,很多欧美餐馆菜单都是纯文字,上面只有菜名和用料,更别提大部分人对用料的英文也一知半解,经常出现点完了还不知道自己在吃什么的情况。
而这次Google推出这个功能,让我明白了一点:原来不只是中国人,点菜对全世界人民都是个难题啊……
Google Lens的这个功能,实现方式其实很好理解:首先用GPS或手机信号的地理位置记录来确认用户所在的餐馆,然后用光学字符识别之类的技术对菜单进行索引,再跟Google Maps/Yelp(美国版大众点评)上的热门菜品和评价进行比对,最后再把热门菜品通过AR技术投射在屏幕上。
以后,出门下馆子再也不怕点菜了。
小票识别:在美国吃饭大家都喜欢各付各的(=中国的AA制),但也会经常遇到餐馆不收多张卡的情况,再加上小费,每个人该付多少很不好算。而Google Lens现在有了一个新功能,用相机拍一下小票,Lens会自动识别金额,按照用户希望的比例计算小费,最后再算出分单的金额——一个挺有用也挺有趣的功能。
通用隐身模式:当大家不想自己的浏览记录被追踪和记录,特别是浏览某些不可名状网站的时候,都会打开Chrome浏览器的隐身模式(incognito mode)。
现在,Google计划更多的产品支持隐身模式。比方说,你临时需要查看一个YouTube视频,但是不想今后自己的推荐里出现大量类似的视频,点一个按钮就可以在YouTube里打开隐身模式。目前YouTube已经支持,不久后Google Maps和Google搜索也将引入隐身模式。
federated learning:简单来说,用户的数据不上传,只在本地训练训练一个简单的独立模型→这个模型上传(不携带可识别或不可识别的用户数据),在云端进行计算,整合出一个通用的模型,再下载到用户的终端设备上。
这样做,用户即能感受到基于深度学习的人工智能技术带来的好处,又避免了自己的数据被上传。Google透露,目前Gboard输入法就在采用federated learning技巧。
LiveCaption:在声音嘈杂或情况复杂的环境里用手机看视频,想要听清楚声音是不现实的,伤耳朵,也容易让自己失去对周遭的感知,无法避免危险情况出现。所以,我们都喜欢开字幕。
但问题是,不是所有视频网站都有字幕功能,不是所有内容提供者都考虑到观众的需求添加了字幕。所以Google做了这个功能,基于一个几十kb大小的模型,完全利用手机本地的计算能力,能够对任何手机端播放的视频媒体(Twitter、Instagram、本地视频等)生成实时的字幕。
LiveCaption的开关在音量调节的界面里,按一下手机音量+或者-按钮就可以看到。该功能将随AndroidQ在今年夏天推出。
多年以来,驱动Google进步的技术,已经从搜索变成了AI。它的用户群也从北美和全世界的网民,逐渐扩展到了更多的人——其中包括其他发展中国家市场的非网民、文盲和障碍人士——所谓的“下一个十亿”。
与此同时,它的使命却一直没有改变:整合全球信息,使人人都能访问并从中受益。
这意味着,Google的产品和技术,必须可以被所有人使用,并且对所有人有用。而Google在I/O2019上发布的诸多功能,在我看来皆是为了兑现这一承诺。
最近两年来,Google将“无障碍使用”(accessiblity)作为技术创新的重中之重。如果一个产品无法被所有人所使用,那么它可能不是一个具备同理心的产品,会导致用户的疏远,进而导致社群的隔阂。
科技以人为本,已经不只是诺基亚的口号。包括Google在内,许多顶尖科技公司的使命都和这句话有关。无论肤色、阶层、国籍、身体和认知状态,所有人都可以感受科技带来的进步,我觉得那才是科技进步的真正意义。
————————————————————
免责声明:凡本网注明“来源:XXX(非本网)”的作品均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。
13520832007