谷歌基于云计算的学习引擎


  从亚马逊网站的产品推荐到潘多拉网站(Pandora)的新歌搜索,这些智能化的网络服务依靠的是机器学习能力——一种算法,使软件具备对新信息或事件作出“智能”反应的学习能力。

  如今,谷歌的一项新服务能够使更多的程序“智能化”。谷歌预测应用程序接口(Google Prediction API)能够使开发人员更简便地开发出具备学习数据能力的软件。例如,谷歌的算法能够依据一个包含有很多句例的数据集筛选出内容是“抱怨”和“表扬”的电子邮件。如此,使用API服务软件就可对电子邮件进行筛选和有效处理。

  来源:麻省理工《科技创业》

  谷歌的Prediction API产品经理特拉维斯•格林(Travis Green)表示,目前仅有少数开发人员可以访问该算法,“但可以看到,他们已经使用这一算法开发出了很多令人赞叹的程序。”这些程序员们工作在各行各业,如手机软件、网络应用、石油领域等。“很多公司想利用Prediction API做产品推广,也有一些非政府组织(NGO),更侧重于信息收集,如从Twitter这样的网站提取突发事件信息。”他说。

  将机器学习能力植入软件中并非易事,对不同的数据应采用不同的算法和数学技巧。针对特定功能开发的软件应具备独特的机器学习能力,格林表示。

  Prediction API服务像是一个机器学习的黑盒子——数据从一头进去,结果从另一头出来。这里有三个基本指令:上传数据;命令算法开始学习;上传新数据,命令算法根据学习的知识进行计算。

  “开发人员可在20分钟内将Prediction API部署在他们的网站或应用程序中。”格林说,“我们希望提供真正简单的服务,这样用户就不必花费好几个月的时间去尝试各种算法。”实际上谷歌的黑盒子内置了一整套算法,用户上传数据后,所有算法自动进行匹配,从而找到最适用的算法,该算法即被用于处理后续数据。

  来自费城的软件开发员约耳•康菲诺(Joel Confino)表示,“将机器学习能力做到谷歌那样的规模至关重要。” 康菲诺为银行和制药公司编写大型网络应用程序,同时也是客户预览计划的成员之一。他利用Prediction API很快写出了一个简单却有效的垃圾邮件过滤程序,并表示谷歌的服务显然具有很强的商业潜力。

  例如,虽然银行或信用卡公司希望借助机器学习能力,开发出能够根据历史交易数据进行决策的系统,但他们并没有专业的工作人员和必要的用于密集计算的基础设施。“他们不必花费大笔费用构建一个传统的工作平台,因为Prediction API就能提供他们所需的服务。”

  康菲诺说,那些担心数据安全而对云计算抱有怀疑的企业,可以信赖Prediction API服务。“即便所有数据都含糊不清,Prediction API仍然可以提供服务。它不需要知道你上传的数据是股票价格还是房价。”

  不过谷歌确实从用户那里获得了一些可用于改进算法的信息。“我们不关注用户的数据内容,但我们确实会查看用户对所得结果的质量的评定,帮助我们改进服务。”格林说。谷歌工程师可以看到哪些算法很少使用,有没有新的算法需要加进来以应对需求。

  新创公司OpenHeatMap.com的创始人、前苹果公司工程师皮特•沃登(Pete Warden )认为,Prediction API服务有可能成为平衡大公司和小公司之间实力差距的一个手段。“亚马逊等大公司的强大竞争力来源于,他们的产品推广机制建立在机器学习能力上。”他解释道,“而借助Prediction API,小公司只需要上传一套完整的学习数据集,有没有与大公司同样水平的技术实力根本不重要。”

  沃登还没有使用过Prediction API服务,但计划用它改进自己推出的服务,这项服务可以找出Twitter上使用特定词汇短语的用户。“如果能看到人们对事情的正面和负面评价,那一定很有趣。” 沃登说。Prediction API能够学习如何对积极评价和消极评价进行分类。

  在线音乐服务提供商Grooveshark的数据专家、同时也是Prediction API预览计划成员之一的克里斯•贝茨(Chris Bates)表示,谷歌的黑盒子将推动机器学习的更广泛应用,但同时认为这项服务还不够成熟。“现在,它仅能够分辨出文本所用语言,进行情感词汇分类等工作。”他说。

  然而,这种服务不允许检查算法的内部工作机制和针对特定用途作调整,最终可能因此碰到瓶颈。贝茨说:“对于不是那么重要的任务,人们可以接受一些误报。”例如,垃圾邮件过滤软件偶尔会漏掉几个垃圾邮件,但信用卡公司可不会接受任何错误。