iPhone4S 的热卖于硬件无多大关联,其内置的 Siri 语音搜索功不可没。语音搜索不是革命性技术,早期的语音搜索其实是一种无线搜索服务,当时的模式是可以通过打电话的方式查一些专项的资讯,比如天气预报或者打 12315。随着服务的延伸,语音搜索已经被许多互联网企业应用到自家的科技产品中,而且也扩展了语音搜索的功能和定义,变的更方便更智能。
随着 Siri 的出现,移动终端语音搜索被业内普遍看好,实际上谷歌在 09 年就已经推出语音搜索软件,并且支持中文。近期微软高管也爆料称微软早于苹果一年研究语音搜索技术,并且透露未来在 win8 上会内置该服务,看来语音搜索将会成为各大厂家的下一个竞争点。今天简单的整理了几家公司推出的语音搜索服务,想要了解的同学不妨关注下。
1 苹果 Siri
iPhone4S 开卖之后 Siri 大火,利用 Siri 用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri 可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。 Siri 语音系统目前支持英语、法语和德语,不过由于其仍处于测试阶段,对中文的支持可能并不甚理想,未来会加入更多语言支持。
Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,Siri 是其所衍生出来的民用版软件。Siri 原本是苹果 App Store 里的一款免费应用,苹果于 2010 年初花费 2 亿美金将 Siri 公司收购,收购后该应用近一年时间没有更新,直到苹果正式介绍 iPhone4S 的 Siri 后,这一应用才下架。
2 谷歌语音搜索
谷歌最早于 2009 年开始推出基于语音搜索技术的软件,而中文语音搜索软件的推出是支持诺基亚 S60 平台,并非 Android 平台。谷歌称谷歌语音搜索软件采用云计算的模式工作,支持中文普通话、英文以及二者混用的语音输入方式。同时,这一服务采用了对背景噪音进行分离的技术,能够有效的降低环境因素带来的影响。
说完手机搜索,我们在来谈一谈 Voice Actions,Voice Actions 是谷歌于 2010 年 8 月推出的一款应用,利用该应用可以通过语音命令发短信 ; 通过语音命令直接设置闹钟 ; 或是打开网页,寻找你所需要的内容,寻找你所要去的地方 ; 同时通过特定的应用,只要你说出你想要听的音乐和电台,手机就能够为你搜索到您所需要的音乐。这些功能在今天的 Siri 上大放异彩,而谷歌早在一年前就已经推出,为什么 Voice Actions 没有 Siri 知名度高呢?
原因在于虽然 Voice Actions 提供了非常坚实可靠的声音识别引擎,不过,Voice Actions 要求你说的话必须具备严格的语法结构和格式,否则系统将无法识别。而 Siri 和 Voice Actions 就有本质的不同了,你可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,Siri 会结合上下文结构去理解,它还会从人类语言史的角度出发,利用人工智能系统去分析,并在绝大多数情况下领会你的意思。
谷歌地图界面截图
今年 8 月,谷歌地图正式启用语音搜索功能,不过不支持中文而且仅限于 Chrome 浏览器。
3 微软语音搜索
微软早在 2007 年 3 月就收购了 Tellme,Tellme 是一个云端语音识别技术,能够在玩家的不断使用过程中拥有更高的识别度并逐渐变得精准起来。2010 年微软将 Tellme 整合进 Windows Phone 7,当时 Tellme 只提供两种基本操作:拨打电话给联系人,Call “Contact Name”; 启动应用程序,Open “application name“ 。
iPad 版截图
微软今年 4 月通过苹果 Appstore 商店发布了 iPad 版必应,在必应 iPad 版本中微软加入了语音搜索功能,这也是微软正式进军语音搜索领域的一个标志。近期有微软高管称,未来在平板电脑和计算机上使用的 Windows 8 操作系统将能够提供与 Siri 现在提供的同样的体验,甚至会提供更多的体验,而且,还会有一个支持 Kinect 系统。
4 联想语音搜索
联想在 11 月末发布的新机乐 Phone S2 中加入了全新的“乐语音”,“乐语音”的功能不仅可支持中文语音, 甚至可支持主流方言, 可以通过对汉语的识别自动调用应用程序, 并帮助用户完成操作, 包括打电话、发短信、听音乐、发微博等常见应用。“乐语音”由联想与科大讯飞合作开发。
科大讯飞成立于 1999 年 6 月 9 日,是我国在语音技术领域中资历较深规模较大的一家公司,该公司于 2011 年 5 月 11 日在深交所上市,联想集团是其股东之一。
对比目前红得发紫的 siri 来说,“乐语音”优势非常明显,siri 不支持的打电话、发短信、听音乐、导航与听新闻,“乐语音”都能搞定。当然,最重要的是,因为 siri 听不懂中文,所以 siri 对于大多数中国人来说,只能是一个摆设,但“乐语音”能识别中文,是真正中国化的语音软件,是中文化 siri。
5 百度语音搜索
百度语音搜索是百度公司为互联网用户提供的一种基于语音的搜索服务,用户可以使用多种客户端发起语音搜索,服务器端根据用户的发出的语音请求,进行语音识别然后将检索结果反馈给用户。目前支持百度语音搜索的客户端如掌上百度,百度手机地图等,用户可以在使用这些客户端产品的同时体验语音搜索,客户端产品支持几乎所有的主流手机操作系统。
6 腾讯 QQ 语音输入
QQ 软件使用截图
相信大家在新版的 QQ 中已经发现,在多功能输入栏里出现了一个语音输入,用户可以使用麦克输入语音,就可以实现语音转化成文字的操作,无需使用键盘输入。目前来看,QQ 的这项语音输入还是很给力的,基本的生活用语都可以非常准确的识别,比较复杂的语句识别时间会需要等待,而且会出错,对普通话有要求,标准的普通话识别率非常高,如果普通话夹杂着方言,可能就要悲剧了。
7 Vlingo 语音助手
Vlingo 使用界面截图
Vlingo 是一个语音控制软件,支持 iOS、Android 平台,Vlingo 语音控制软件虽然并不能智能回答你的问题,但是可以把你的语言转化为行动,发送短信、电子邮件、更新 Facebook 状态、搜寻,还有更多功能可以实现。Vlingo 只支持英文输入,这点对于国内用户来说还是有很多不方便。
欢迎转载,转载请注明出处:蔓草札记 » 盘点语音搜索技术应用