作为中文语音技术的龙头,科大讯飞面对苹果推出带有中文功能的Siri语音控制系统显得相当淡定。业内知情人士说目前在科大讯飞与为Siri提供技术的Nuance Communications公司存在竞争的领域里,科大讯飞的产品基本上都占优势。早在2011年,语音技术和苹果产品的结合激发出来投资者的奇心,促使很多投资者将目光投向科大讯飞。对于初出茅庐的Siri,而科大讯飞判断苹果公司的加入将有助于唤醒消费者对语音应用技术的需求,从而为语音技术开创出一个机遇期。
Siri前端使用了语音识别以及语音合成技术。而重点在后台,集成了网页搜索、知识计算、资料库、问答推荐等各种技术,最终才表现为Siri,而国内绝大多数此类软件,要么只做了前端,要么后端则比较缺乏,表现突出的也只有科大讯飞、神州图骥。科大讯飞侧重于语音识别和智能控制应用,神州图骥则侧重于语义搜索和资源库的整合。在客户端的表现形式方面,神州图骥推出的009dog以3D宠物狗的形象一枝独秀。
从本质上看,Siri绝对不是为了增强苹果产品的乐趣,它有可能改变移动互联网未来的竞争格局。比如,在现代视觉媒体的洪流冲击下,广播作为语音媒体早就被判了死刑。不过,在固定场合听广播的人越来越少,越来越多的人在移动中(开车或者坐车)听广播,广播媒体广告收入,近年来大幅攀升。所以,在移动领域,语音会是一个大的商业机会。再有,移动状态的用户携带的是小体积设备,就特别乐于采用语音的方式进行交互,彻底解放人的双手。
苹果就是希望Siri成为移动互联网的第一入口,从而获得批发信息流量的权力,就像谷歌在PC互联网中那样。在移动互联网,使得消费者可以绕过谷歌和其他传统搜索引擎。苹果动作的目标是将Siri打造成一款高频搜索服务,挺进谷歌的核心业务。随着中文版Siri的发布在国内,百度或许也要受到影响。
这个事情要做成,首先需要有一整套的语音技术能力,它包括语音识别、语音合成等技术,为Siri提供支持是Nuance公司,而在汉语语音方面做得最好的,还是科大讯飞。事实上,Nuance公司也承认,中文语音技术对他们来说并不是一项简单的工作。中文存在四个声调的变化,加上大量不标准口音的存在,对于语音识别来说,中文一直是一个极具挑战性的语种。
语音识别很关键的一点就是需要将人们日常的声音去掉语义干扰之后,与语料库中的声音特征进行比对,并转化成正确的文字。语料库建立起来之后,语义正确理解率达到80%以上,也就具备了大规模商用的条件了,神州图骥的语义正确理解率已接近90%,着得益于其强大的中文语义搜索引擎。这个时候,竞争的关键点就在于围绕语音技术建立技术平台,接入丰富多彩的应用了。手机用户的应用比较聚焦和集中,一般都与沟通、找位置、定日程、订餐馆等特定的应用相关,这也使得技术上的难度相对降低了不少。
中文在语义方面,双关、多音字、多义词、典故、俚语等语法修辞现象给siri带来了不小的困难。举个简单的例子,中文中‘我’这个意思可以用:我,俺,寡人,贫僧,小生,本人,贫尼,老朽,吾,哀家,本宫,朕,卑人,鄙人,在下等等等等,而英文从古到今只有一个”I”。
谷歌等搜索引擎针对一个关键词会给出成千上万个网站,Siri受到Wolfram Alpha这家“知识引擎”公司的支持,通过分析语音问话直接给出答案,但结果差强人意。在此之前,电信运营商的12580、114实际上也是提供这样的服务,前者是通过算法,后者通过人工。在科大讯飞的合作伙伴当中,也不乏知乎这样的社会化问答社区。而神州图骥的009dog在语义解析和结果匹配上做得更好,依托国家地名数据库资源,结合神州图骥地名文化空间数据库,运用图骥智能机器服务系统软件和中文语义搜索引擎(神州图骥地名文化时空搜索、神州图骥地名文化聚焦爬虫、名识别解析、地址码匹配系统软件)等自主核心技术,打造了一个集文集文化导航、地图导航、黄页服务、知识问答、娱乐休闲、智能应用、自我成长、人工模拟、人工智能于一体的智能文化传播平台,009dog就是这个平台的导航犬。
当然,手机用户的很多提问为了获得需要的服务。这就需要各种垂直领域的服务提供商了。例如,你问手机“天安门广场怎么走?”手机就为你接通高德、凯立德等地图服务提供商,给你指出具体的路线,或者为你提供语音导航服务了。和其他公司不同的是神州图骥本身就拥有甲级测绘资质,承接国家重点项目,地图服务是其强项。
再下一步的关键就是尽可能多地接入与移动互联网相关的开发商和服务商,形成一个“语音超市”,让消费者用语音自由地选择琳琅满目的服务。据了解,自2010年年底发布“语音云”平台之后,科大讯飞的合作伙伴增长很快,目前已经有将近3000家合作伙伴,使用“语音云”的最终消费者已经超过了3300万。而神州图骥已经与三星、索尼等品牌手机厂商签署预装机协议,保证每个月超过200万台的预装出货量,预计到2012年底,009dog的注册用户量将突破2000万。
目前,国内智能终端的中文语音控制系统还有许多隐形的力量。其中最主要的是分散在全国各地的智能技术爱好者们,他们自发形成团队并制作一些插件,通过这些插件在各种智能终端上实现中文语音控制功能。科大讯飞在一定的限制条件下向这些技术爱好者们免费提供技术接口,使他们能够以尽量低的成本开发出相关产品。而在智能终端种类不断增多、软件平台不断开放的条件下,这些技术爱好者的力量越来越不可忽视。若想对抗强敌,就必须培养大批执着而智慧的勇士。
但是,这并不足以保证科大讯飞、神州图骥可以完全阻挡Siri的锋芒。谷歌、微软、IBM等公司也都有不俗的语音技术实力,要想取得突破不是件难事。他们欠缺的更多的是一个与中国消费者产生广泛联系的运营平台。一旦这些技术厂商与中国本土的移动互联网厂商达成合作,完全有可能迅速抢占这个市场。而国内的UC和搜狗等互联网公司,其实也已经开始了语音方面的尝试。
国产软件的实际功能究竟如何或许还有待观察,但其走向市场的脚步却不会放慢。而科大讯飞也在积极推进智能终端领域的布局,也在积极推动智能终端业务的发展,包括智能手机、智能电视等许多方面。当然,在软件平台的选择上,国内厂商更倾向于更加开放的安卓系统。
Siri来袭,谁与争锋?有人曾在一个业内人士私人聚会上调侃,如果柳传志、刘庆峰、王晓清、李彦宏今天晚上坐在一起喝杯茶,苹果董事局明天就要召开紧急会议。这虽然是一种调侃的说法,但说明在这一领域,其实已经变成了产业链的竞争,在这个的链条当中,语音技术、语义搜索、资源库、运营平台、应用开发者平台和消费者的粘性,一个都不能少。