电信公司发现他们正守着一座金矿——用户的通话记录。
越来越多移动行业的研究人员与学术界研究人员一起,对保存了通话和文字信息发出或接收时间地点的数据库进行分析,从而显示出用户的通信习惯,参与公共活动的旅程长度,甚至重大社会动向。
除了从城市规划到市场营销等潜在应用之外,这类研究也为电信公司提供了新的收入来源。“由于手机已经如此普及,挖掘它们生成的数据将彻底改变对人类行为的研究。”新泽西州弗洛厄姆帕尔克市at&t研究实验室的首席研究员拉蒙•卡塞雷斯(Ramón Cáceres)说。
如果你是at&t的用户,并且在去年3月15日到5月15日之间在洛杉矶或纽约附近的话,那么你的数据有5%的可能在卡塞雷斯和他的同事对该公司用户旅行习惯的研究中被捣腾过。研究人员收集了几十万用户的上百万条通话记录,地域范围覆盖了891个邮编辖区,包括纽约的所有行政区、新泽西州10个郡,以及加利福尼亚州的洛杉矶、奥兰治和文图拉郡。
该数据集是呼叫细节记录(CDR)的集合——收集数据挖掘的标准原料。每次语音或者短信连接都会生成一份CDR。在它提供的众多信息中,包括主叫和被叫号码、连接时长与类型,以及最关键的部分,连接建立时手机所使用信号塔的惟一编号。
这使得at&t的小组能获知每份CDR生成时相关手机精确到1英里半径的位置,从而计算出每一部手机每天离家出行的距离。小组发现,居住在曼哈顿的人大多数时候平均每天出行2.5英里(约4千米),而洛杉矶平均是5英里(约8千米)。“但我们同样发现,当你观察人们旅行的最远距离时,住在纽约的人明显较远,工作日可达69英里(约111千米),而洛杉矶的记录是29英里(约46.7千米)。”卡塞雷斯说。
卡塞雷斯希望与城市规划师合作,后者通常需要求助于昂贵而有限的调查来收集这些信息。“这类信息可以帮助他们决定如何投资资源,比如当他们需要知道应该在何处修建新的火车站或地铁站时。”他说。at&t的成果已于5月中旬在马萨诸塞州剑桥市的一个研讨会上,作为网络科学大会(NetSci Conference)的一部分发表。
目前,卡塞雷斯的小组更倾向于寻找合作伙伴而非商业化。但手机网络运营商计划将他们的数据变现,网络运营商Sprint的研究员让•伯罗特(Jean Bolot)说。这意味着一个“双边”商业模式,运营商不仅为终端用户服务,同时还通过与其它企业的合作获取利润。“这对电信领域来说很新鲜,但在其它领域早就出现了——比如,看看谷歌。”他说。
由于几乎每人都有一部手机,这个数据的规模与其它来源相比可谓巨大。例如,流动模式可以用来调节房地产或者户外广告的价格。“这个星球上几乎所有运营商大概都在考虑这个吧。”伯罗特说。
麻省理工学院的研究科学家弗朗西斯科•卡拉布雷斯(Francesco Calabrese)和他的同事展示的另一项研究将波士顿大区约100万部手机的位置轨迹与棒球比赛和戏剧等公共活动列表结合起来,显示出人们出行参加这些活动的情况。“我们能在一定程度上预测未来的活动中人们将来自何方。”该小组在一份工作报告中写到,并表示有可能为特殊事件提供精确交通预报。
该领域研究的涌现得益于对高效处理上百万链接组成的网络的算法开发,位于布鲁塞尔附近的鲁汶天主教大学的用数学教授文森特•布隆德尔(Vincent Blondel)说,他负责组织剑桥研讨会。
布隆德尔的研究包括对比利时200万手机用户之间的连接进行分析。研究表明该国说法语的人和说荷兰语的人之间几乎没有通话或短信联系。“这非常有趣,因为比利时国内早已存在是否应该将其一分为二的讨论。”布隆德尔说。
该领域的研究通常注重收集信息而非个人隐私,但如何保护用户隐私依旧存在疑问,布隆德尔说。标准情况下都会移除一份CDR中的名字和号码,但通过将位置信息、呼叫时间与其它数据库相结合就能辨别出用户身份,他说。例如,在麻省理工学院的研究中,小组人员可以根据一部手机在晚10点到早7点之间停留最多的位置大概指出某个用户的家,尽管他们实际上不得不利用邮编勉强将用户分组。
“我认为科学界应当对如何权衡获取有用数据与保护隐私之间的关系承担责任。”布隆德尔说。他正在调查相关技术的效果,例如使用近似位置信息而非准确信息,或者将数据集中通话的时间戳模糊处理。
移动数据:电信公司的金矿
评论
12 views