语音搜索:动口不动手


  智能手机在许多方面都表现出色,但也有一个例外:与全尺寸电脑键盘相比,在触摸屏或者小尺寸键盘上打字仍然令人沮丧。可能这正是为什么谷歌甚至在十二月中旬发布其最新的Android平台个性化语音搜索(Voice Search)应用之前便宣称,已有四分之一的移动搜索是通过语音输入而不是键盘了。

  经过改进的语音搜索让语音识别更进一步:如今,谷歌的服务器将记录你两年的语音命令以求更加精准地分析你所说的话。

  在圣诞节前一周,最新的应用程序出现在了谷歌的Android应用商店里。测试中,该应用程序最初达到了五分之三的正确率。几天后,正确率攀升至五分之四。令人惊讶的是,它对包含普通名词的搜索以及如航班和视频之类需要垂直搜索的流行主题搜索有着良好的表现。当听到 “联合航空714”和“《大地惊雷》放映时间90066”(true grit show times 90066)时,语音搜索都能识别它们。当搜索内容包含人名时就不大成功了。在反复搜索维基解密(WikiLeaks)创始人朱利安·阿桑奇(Julian Assange)时,语音搜索最接近的也就是“维基解密创始人朱利安之歌。”

  它是如何工作的呢?语音搜索并非试图使用电话进行语音识别,而是将用户输入的命令数字化后传送到谷歌的大型服务器集群。在那里,语音单词被分解并与统计模型进行比较。该模型统计了人们在发出这些音节时所表达的含义,综合该用户自己语音命令的历史记录,谷歌对特定语音的匹配算法进行了优化。这一程序能够识别五种不同风格的英语——美式英语、英式英语、澳洲英语、印度英语和南非英语,还有南非荷兰语、粤语、捷克语、荷兰语、法语、德语、意大利语、日语、韩语、普通话、波兰语、葡萄牙语、西班牙语、土耳其语和祖鲁语。

  最棘手的部分,同时也是个性化搜索应用的动机是,由于性别、年龄的不同以及各种口音和方言,人类的语音存在着巨大差异。依靠存储了同一个人在数月使用过程中的数百条甚至上千条信息,语音搜索可以更好地推测这个人正在说什么。这些信息被语音识别专家称为“发音(utterances)”。

  在过去的三年里,这一曾经用于识别词组的数学模型被优化改进,其间利用了来自谷歌服务GOOG-411自动词典助手采集的语音样本。谷歌公司从2007年到去年年底一直在运营该服务,专门采集大范围的语音样本以进行分析。在 2008年11月GOOG-411启动一年后,该公司发布了第一款仅针对iPhone的语音搜索应用。

  显然,谷歌在语音识别技术上投入了巨大精力。但是由此产生的基本影响也显而易见:通过免除在小键盘上打字的烦恼,谷歌公司希望让用户更多地使用它的搜索和邮件服务。

  语音搜索同时还是手机上的一个语音命令系统。它能理解像这样的命令:“给麦克·勒博(Mike LeBeau)发封邮件。你在纽约过得怎么样?这儿的天气很好。”应用程序会在你的通讯录里找到勒博——与在互联网上搜索相比,它更善于在这里匹配姓名,因为它是在有限的范围内工作。并且,它还会把你的第一句话填充到标题栏里。在发送之前,你可以再说几句作为消息正文,或者也可以用手机键盘编辑。