免费发布信息网站
贸易服务免费平台

三大语音助手为何不支持完全语音控制？

发布日期：2014-07-01 10:22 来源：搜狐IT 浏览次数：26

　　7月1日，科技博客网站phoneArena刊载Michael H.的文章，对三大语音助手不提供完全语音控制功能进行了阐释。以下为文章全文：

　　我是作家，这意味着我最擅长通过文字而非说话表达自己的思想。但我同时是个“懒人”，在完成工作时喜欢尽量减少使用计算设备。为此，我心中难免会有一个疑问：为什么Google Now、苹果Siri和微软Cortana不能提供完全语音控制功能？

　　我喜欢语音控制，这也是我换用Moto X的主要原因之一——喜欢其Touchless Controls(无须触控操作)功能。用上Moto X的Touchless Controls后，我有些“得寸进尺”。麻烦在于，只使用语音控制功能，我能完成的工作受到一定限制。语音命令有很多类，我可以通过语音命令发送电子邮件、浏览网站、提问、问路、设置定时、设置提醒、播放音乐等。麻烦在于，计算设备完成第一条命令后，我就不能通过语音命令未完成其他任务了。

　　最近数年最好的创新之一是，Google把传统的语音识别技术应用在搜索领域。从技术角度看，这意味着Google能够理解代词，并把它们与之前的请求联系起来。因此，如果用户在一个语音命令中提到科怀?伦纳德(Kawhi Leonard)，在下一个问题中提到“him”(他)，Google能理解用户的意思，向用户提供所需要的信息。尽管大多数人没有完全意识到，但这是一项令人吃惊的技术。它使用户能与设备自然地交流。令人遗憾的是，这种交流无法拓展到更加有用的场景。

　　自然控制

　　语音控制技术能执行后续的命令，但目前的技术还存在相当多的限制。我没有遇到大量需要连续询问一个人或一个地方信息的情况。我的问题在于，其他语音控制命令不包含相似的后续场景选项。例如，我让Moto X播放Me'Shell Ndegéocello的一首歌曲，因为我尚未有机会听取其新专辑。第一条命令的执行不存在任何问题，问题在于，一旦开始播放后，可供我使用的语音命令就几乎没有了，只能通过语音命令播放其他歌手的歌曲。但我真正的意图是让设备完成下述功能之一，例如“暂停”、“下一首”、“调高/低音量”或重复播放。令人遗憾的是，我无法通过语音命令完成这些功能。

　　我不明白造成这一问题的原因。从技术角度看，完全通过语音命令控制设备几乎不存在任何障碍。语音识别技术已经相当成熟。所有语音命令系统都能理解简单的词汇，例如，播放、暂停、下一个、上一个、重复等。Google最近拓展了其热词的使用范围，使用户能从任何地方启动“OK, Google”。有传言称新款iPhone中的Siri将包含有相似的功能，Cortana没有理由不能为Windows Phone用户提供相似的功能。始终接收语音命令已经成为标准，因此这不应当成为一个问题。

　　我知道，更多地使用语音命令意味着电池续航时间的缩短，这令厂商感到担忧。但这似乎是一个相对容易解决的问题。设备始终处于语音命令接收状态是可能的，尤其是在设备配置协处理器或针对语音命令优化的处理器的情况下。解决这一问题的另一个方法是简单的API(应用编程接口)。

　　Ubuntu Touch就计划解决这一问题。打开一款应用后，用户希望使用的语音命令是有限的。新闻和其他阅读类应用不大量使用语音命令，但提供简单的语音命令——例如“后退”、“向下/向上滚动”、“搜索”、“分享给”，能给绝大多数应用增添丰富的功能。打开支持更多标准语音命令的应用——例如媒体消费类应用，支持的语音命令就更明确了，例如“播放/暂停”、“下一个/上一个”、“快退/快进”、“调高/调低音量”，甚至“跳至(某一时间)”。当然，即使动态命令也不会是个问题，因为应用内部的命令通常是1或2个单词，许多应用的命令甚至是重合的，能更便利地部署标准API。识别这样的命令不是个问题。

　　谁会成为第一个吃螃蟹者？

　　这并非是全新的功能。Windows 7和8提供了范围广泛得多的语音命令功能，用户只需使用语音命令即可操纵桌面。许多人会认为桌面系统的语音功能要强大得多，移动设备是另外一回事儿，但是，这种想法需要改变了。移动平台越来越先进，在许多方面弥补了与桌面系统之间的差距。Ubuntu Touch的目标之一是在应用内支持更多语音命令，Canonical展示了可以通过语音命令控制的下拉菜单，支持“打开”、“保存”等命令。

　　Google Now、Siri和Cortana缘何不能提供完全语音控制？

　　Ubuntu Touch尚不支持完全语音控制功能。坦率地说，Ubuntu Touch中的许多功能都尚未达到预期的目标。我的疑问是，缘何主流平台也做不到。

　　苹果和Google分别在不断地扩展Siri和Google Now的功能，Cortana发布时就带有给人留下深刻印象的功能。但是，三家公司无一计划提供完全语音控制功能，这颇令人感到失望。目前，我们最大的希望是，反复使用能提高语音命令被正确执行的机率，系统能包含全部相关信息。

　　终有一天完全语音控制功能会问世，问题是哪家公司会首先提供这一功能。微软在Windows而非Windows Phone中提供了完全语音控制功能。微软曾表示计划为其平台提供“类Kinect”控制功能，但尚未披露时间表。明年发布的Windows Phone 9可能提供完全语音控制功能。

　　Canonical在为Ubuntu开发完全语音控制功能，但尚未完成开发工作。目前没有明显的证据表明苹果在开发完全语音控制功能，但它可能至少在研发相关技术。三星也没有披露在开发完全语音控制功能的消息。三星已经提供了部分类似功能，S Voice采用Nuance的技术

　　在多段Android Wear视频中，Google都表示在扩大语音命令使用范围。在一段视频中，一名用户在自行车上发出“OK Google, open the garage door”(OK Google，打开车库门)的命令。令人遗憾的是，目前还很难判断视频的真正含义。

　　Google可能向开发者开放语音命令，使语音命令更深入地整合在应用中，使开发者能创建定制的语音命令；Google也可能提供一套应用能执行的标准语音命令集，供其他应用使用。Google的展示表明，用户可以发出“OK Google, call me a car”(OK Google，帮我叫辆车)命令，并选择一款应用执行这一命令。尽管会有些乱，第一种选项会催生更多功能；第二种选项会使功能受到一定限制，但会带来更高的便利性。Google可能会选择第一种选项，增添更多完全语音控制功能。

　　结论

　　“什么”和“为什么”的问题很好回答：完全语音控制，因为我们都希望生活在《星际迷航》(Star Trek)中。“如何实现”的答案是：始终接受语音命令和API。“谁”问题的答案是所有公司，其中Google可能会首先提供完全语音控制功能。最后一个问题就是“时间”了。

　　根据披露的信息，Google很难在今年底前提供完全语音控制功能。完全语音控制功能可能是Android L的一部分，Google在最近的I/O开发者会议上没有提及完全语音控制功能。完全语音控制功能与应用的深度整合需要在系统层面而非仅仅在API调用层面完成。Google似乎至少在为完全语音控制功能奠定基础。

　　令人的遗憾的是，完全语音控制功能至少明年才会问世。

下一篇：编剧行业风波四起聚焦三大争论点
上一篇：完全国产工具 iOS7.1.X越狱工具再升级

分享与收藏： 资讯搜索告诉好友关闭窗口打印本文本文关键字：

为您推荐更多相关文章

微软表示人工智能领域将需要新的法律法规　2018-01-19
Windows 10和Windows 7之间的差距正在缩小　2018-01-17
微软已在Microsoft Messaging应用中试水Fluent　2018-01-15
支持Win10 Always-Connected PC的运营商新名单　2018-01-11
Intel悄然发布了新款雷电3控制器　2018-01-10
报道称：无人机在2018年将在多领域得到越发广泛　2018-01-03
下一代手机SurfacePhone相关的最新专利曝光　2017-12-27
微软宣布第二届年度Windows开发者大奖投票活动　2017-12-21
Android8.0上线四月占比为0.5%　2017-12-14
亚马逊将与西云数据合作，进一步扩大在中国的云　2017-12-13

推荐图文

五子之中哪个更花钱哪个更值得拥有？	WP8.1正式版看点：WiFi受限时，手机网络来救急
成都房市步入调整期投资者购房意愿减弱	仍是双LED 苹果iPhone6闪光灯重新设计

赞助商链接

推荐资讯

赞助商链接