大数据时代,结果呈现导致安全风险

2018-06-15 04:46:13
龚才春
大数据
最新资讯
许多系统或平台的业务,都需要将处理结果以某种形式展示给用户:百度需要根据用户的搜索关键词展示可能的结果网页,淘宝需要根据用户的关键词展示相应的商品信息,去哪儿需要根据搜索展示符合条件的机票信息,前程无...

许多系统或平台的业务,都需要将处理结果以某种形式展示给用户:百度需要根据用户的搜索关键词展示可能的结果网页,淘宝需要根据用户的关键词展示相应的商品信息,去哪儿需要根据搜索展示符合条件的机票信息,前程无忧需要根据HR的搜索展示合适的候选人简历等。这些本来是他们的正常的业务提供流程。但在大数据的年代,这些正常的业务流程,也容易出现数据的不安全因素。

结果呈现导致知识产权安全风险

360曾经上线的综合搜索,其实是把其它搜索引擎的结果采集过来,然后再对各家搜索引擎结果进行综合,展示搜索结果,我们一般在技术上称为元搜索引擎。今日头条刚开始本身并没有生成任何资讯,只是把各家新闻站点的新闻都采集过来,然后进行分析和整理,以自己的形式展示出来。我们先姑且不去探讨这其中的谁是谁非的法律问题。但是可以看出:在大数据年代,结果的呈现会有许许多多的安全问题,或者说知识产权的问题。

相关关系泄露商业机密

如果你认为360的综合搜索、今日头条的新闻推荐还没有太多直接的大数据的特征,那么你一定还记得大数据的第一个商业应用吧。2003年(那时候还没有大数据的概念),奥伦-埃齐奥尼(Oren Etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问几位邻座的乘客花了多少钱购买机票。当得知所有人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。

这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。

关联分析泄露商业机密

FareCast将大数据思维方式用到了极致,尤其是相关思维。招聘网站现有的商业模式在大数据年代也有很多问题。招聘网站是一个撮合型的简历交易平台,候选人上传简历,招聘网站对简历的手机号码、邮箱等信息进行屏蔽。当HR浏览了候选人的简历,需要跟候选人联系的时候,招聘网站收取费用。这个商业模式在大数据年代很容易被攻破。例如职品汇等公司一直关注人力资源的大数据挖掘,当通过分布式多账号采集了招聘网站的大量没有联系方式的简历后,再采集大量其他Profile数据,例如微博数据、领英数据、脉脉数据、人人数据等,各类数据可以通过内容的相似度进行融合,融合后数据可以进行互相补充,在简历中没有的联系方式等信息很容易通过其它数据源获取。(文/龚才春)

收藏
免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:xiali@infoobs.com