从马蜂窝事件背后看大数据

今日头条
三木识天下
这两天,科技板块被马蜂窝数据“造假”的事件刷屏了。在一篇《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章中指出,马蜂窝有1800万条数据是通过爬虫的方式从大众点评、携程、美团等竞争...

这两天,科技板块被马蜂窝数据“造假”的事件刷屏了。在一篇《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章中指出,马蜂窝有1800万条数据是通过爬虫的方式从大众点评、携程、美团等竞争对手的平台上获取的。目前马蜂窝方面对此事做出了回应,声称原作者是有组织有预谋的抹黑,并对原作者梓泉及乎睿数据进行了起诉。梓泉则在其朋友圈称“开战今晚第三篇”,事件至此进入了白热化阶段。

小编刚开始看到这个事件相关新闻时,说实话,有点蒙蔽。因为小编这种穷屌丝并不知道马蜂窝是啥?一篇文章为什么能捅马蜂窝?当然是什么已经不重要了,通过这件事,我们更多的普通人或许应该跟多的了解那些逐渐渗透到我们生活的大数据。本期,小编就带大家来简单了解一下大数据。

何为大数据?

大数据其实是个比较笼统和抽象的概念,它以数据为核心技术或者说产业。主要包括收集数据、存储数据、数据建模、数据分析、数据变现等环节。大数据大的价值在于通过,基于全体的数据进行建模分析,来预测未来。(小编也是佩服自己的归纳总结的能力,看懂的没看懂的点个赞……)

大数据如何获取?

在马蜂窝这个事件中,居然有网友质疑数据是不是由专门团队一个一个检查的。这让小编想起了另一个笑话,今年年初,惠州警方查获了一家机构制作了一个机械手臂,通过不停的点击屏幕,进行“自动”刷票。其实数据抓取和刷票等等行为和过程,完全的可以靠软件脚本来实现,只要有电有网就能实现。现在很多程序员都在学习Python来爬取网络上的数据,不要求数据可视化好看的数据的很多都是几十行代末就可以搞定的。Python有非常多的库用来抓取,解析网站上的数据,现在Python工程师在爬虫、大数据、人工智能方向的职位可是需求越来越大了呢。所以有人工抓取核查数据之类的想法的朋友们,该转变一下思路了。

大数据在生活中有什么作用?

提到大数据,不得不说的是人工智能,大数据是人工智能的“养料”。通过大量的数据样本的进行机器训练和学习,来了解一群人或者一个人的的生活习惯。然后为相应的人群和个体提更加精准的服务。比如百家号、头条文章的推送等等。都是后台通过用户行为进行分析之后,进行的操作。还有之前比较火的一类产品,智能音箱,也是人工智障……哦,不,人工智能的产物。国内各大智能音箱厂商不断的压低智能音箱的原因,给用户带来实惠的同时,也获取到大量的数据样本,为自己在人工智能时代来临前赢得更多“养料”。

大数据如何产生利益?

除了上述提到的产品和服务之外,这些数据通常以精准营销和互联网金融的方式变现。你的生活轨迹,消费喜好甚至更隐私的数据会被追踪、拆分、甚至可以直接交易获取利益。在未来,大数据或许有着更大的想象空间。这也是现在大数据人才特别抢手的原因。

回归到马蜂窝这个事件上来看,小编作为一个科技做工作者,对于数据“造假”这种行为并没有感到吃惊,甚至有点同情。因为在很多网站或者应用刚刚起步的时候都会使用类似的手段来留着用户。这是当前巨头垄“全方面”垄断下的互联网创业者的悲哀。而普通用户着在这场商业竞争中,体会着什么叫做“总有刁民想害朕”的心情。不过说实话,小编看了一下马蜂窝,相关的推送、攻略什么的确实是挺好的。

至于数据“造假”这类事情,小编从另一个维度想对互联网企业的老板们说,请善待团队中的程序员们,别总是天天催更,让他们改需求。有的时候应该停下自己天马行空(自己为是)的想法,回归到自己的产品,自己的团队。敞开自己的心扉,聆听团队成员里更多真实的声音(尤其是程序员之类的产品的生产者的声音),或许难听,但往往能从另一个重要的角度来发现产品和团队不足。小编不相信,马蜂窝的软件团队会对那些“不干净的数据”不动于衷,或许更多的时候是被分配去做其他事情而忽略了,或许心寒了,最终导致了没人去收拾那些不堪的过往结果。相比销售和财务报表,他们更加尊重和敬畏那些自己亲手爬下来的大数据。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论