北京消协杀熟榜发布,是什么技术正在“偷窥”我们?

Winnie Lee
价格歧视并不是一件新鲜事,但有了互联网时代的大数据等新兴技术,这种“不同人不同价”的规模和速度都达到了新的阶段。许多消费者突然意识到自己的思想、消费观念甚至生活的方方面面都已被置于他人的“监视”之下,这种隐私泄露的问题让大数据等技术成为了一把“双刃剑”。
 
  近日,北京市消费者协会发布了“大数据杀熟”问题调查结果。在主观问卷调查方面显示,88.32%的被调查者认为“大数据杀熟”现象普遍或很普遍,有56.92%的被调查者表示有过被“大数据杀熟”的经历。同时,被调查者认为网购平台、在线旅游和网约车等消费“大数据杀熟”问题最多,在线旅游高居榜首。
 
  大数据“杀熟”与“价格歧视”
 
  价格歧视的概念是指零售商、批发商或制造商对同一商品向不同的顾客收取不同的价格。这是一种普遍的做法,并不一定意味着消极歧视。
 
  一、二、三级歧视分别适用于企业采用的不同定价方法。这在很大程度上取决于对细分市场的了解,以及消费者支付更高或更低价格的能力,即需求弹性。
 
  有人可能会为一件商品支付更多的钱,这被认为是需求弹性较低的。另一个不愿意付那么多钱的人相对而言具有较高的弹性。
 
  一级价格歧视包括根据每位顾客的个人意愿向他们收取一定的价格。
 
  二级价格歧视不是根据顾客的特点收费,而是根据所购商品的数量收费,例如数量折扣。
 
  第三级价格歧视依赖于把顾客分成不同的群体,并根据这些群体内的支付意愿收取不同的价格,例如电影的高级折扣。
 
  显然,卖家并不总是能够识别出谁愿意为某些商品支付更高的价格,但当他或她能够这样做时,他的利润就会增加。
 
  消费者可以在新车和二手车的销售中看到一级价格歧视。
 
  人们会为具有相同功能的汽车支付不同的价格,销售人员必须尝试衡量汽车的最高售价。
 
  这通常包括一个讨价还价的方面,即消费者试图以更低的价格进行谈判。
 
  二级歧视是指公司对更高数量的产品收取更低的价格。
 
  如果客户大量订购,并且能够同时购买大量相同的商品,客户可能会得到折扣。这个“批发价”不适用于一次只订购几件商品的客户。
 
  这种价格歧视在零售店很常见,如果顾客买两件T恤而不是一件,就可以打折。
 
  这种形式有助于售出库存,为公司创造更多的收入。
 
  三级价格歧视是建立在对市场的了解基础上的,基于人口群体,并且发生的频率很高。
 
  这种类型有许多不同的形式,但在所有情况下,都试图从每个细分的“消费者组”获得最多的销售额。
 
  例如,老年人被认为是一个群体,他们经常在电影院、交通、餐馆,甚至在零售商店享受折扣,老年人每周可能有一个“老年人日”,可以在商品上打折。
 
  “学生”是另一个细分的群体,也可能被提供更低的价格。
 
  老年人和学生都有更高的需求弹性,通常可以接受比一般上班族更低的价格。
 
  在考虑需求弹性时,市场细分也可能会评价一个地区的社会经济方面。
 
  在一个零售商知道自己可以为一件商品赚到更多钱的地区,零售杂货店提供不同的价格并不罕见。
 
  如果一个地方只有一家连锁店,零售杂货店可能会提供更高的价格,因为人们没有其他地方可以购物。
 
  三级歧视的另一种形式是机票的临时折扣,目的是增加业务。这些折扣可能是季节性的,旨在促销并增加业务。
 
  与农村地区相比,城市地区的人可能要支付更多的机票或酒店费用。
 
  是什么技术在“偷窥”我们?
 
  价格歧视并不是一件新鲜事,但有了互联网时代的大数据等新兴技术,这种“不同人不同价”的规模和速度都达到了新的阶段。许多消费者突然意识到自己的思想、消费观念甚至生活的方方面面都已被置于他人的“监视”之下,这种隐私泄露的问题让大数据等技术成为了一把“双刃剑”。
 
  那么大数据背后的技术原理是什么?新时代究竟是什么技术正在收集我们的个人数据?
 
  从产生数据、收集数据、存储数据到数据处理分析,这一过程中所涉及的各种技术可能比我们想象的还要多得多。
 
  数据采集
 
  获取大数据需要两个主要的子组件,第一个组件是感知数据本身的存在,第二个组件是收集和存储数据的阶段。
 
  这两个子组件都是非常多样化的领域,用于执行这些任务的技术发生了许多快速变化。
 
  数据感知
 
  数据并不存在于真空中,而是作为一个更大的过程的一部分而创建的,尤其是在现代技术方面。
 
  因此,数据来源本身在决定如何在更大的范围内捕获和分析数据方面起着至关重要的作用。
 
  实体不断向环境中释放信息,这些信息可以被用于大数据的目的,从而产生两种主要类型的数据:“天生数字化”的或“天生模拟”的数据。
 
  “天生数字化”数据
 
  “天生数字化”的信息是由用户或数字系统创建的,专门供计算机或数据处理系统使用。这是一个范围广泛的信息,每天都有更新的字段被添加到这个类别中。
 
  简短地列出清单:电子邮件和短信、任何形式的数字内容输入,包括键盘、鼠标交互和触摸屏、GPS定位数据、日常家用电器(物联网)数据等。
 
  所有这些数据都可以被跟踪和标记到用户身上,并被聚合起来形成一个更大的图景,从而极大地扩大了构成大数据中的“数据”的范围。
 
  这些“天生数字化”的资料,在送去收集/储存前,如何由用户方面的科技途径编录?其中一些方法如下:
 
  Cookies——网站会在用户设备上留下一些小的、通常只是文本的文件,以便在随后的事件中(例如,重新访问网站)进行访问、任务或操作(例如,登录电子邮件帐户)。
 
  网站分析——各种各样的服务,如谷歌Analytics、Piwik等,都可以使用JavaScript和其他web开发语言来记录用户在网站上的行为,进行非常详细、密切的跟踪,包括用户鼠标在链接上方停留的时间,花在网站/应用程序上的时间,在某些情况下,甚至花在页面特定部分的时间。
 
  GPS——随着具有基本定位功能的智能手机的广泛使用,这些设备上的GPS传感器用于向应用程序、操作系统,甚至是第三方提供有关用户位置的定期、分钟级的驱动更新。现代技术的更新,如A-GPS可以在没有卫星覆盖的情况下提供基本的定位信息,极大地扩展了室内定位数据收集的能力。
 
  所有这些感知“天生数字化”数据的例子都是常见的,全世界数十亿人每天都在使用这些技术,这象征着它们已经深深地渗透到我们的日常生活中。
 
  除了隐私和安全方面的担忧,这反过来也会导致为任何相关方收集的可用数据呈指数级增长。
 
  传感器数据
 
  当信息包含了物理世界的特征时,如图像、视频、心跳等,我们称之为“模拟”。
 
  当这些信息被“传感器”处理时,这些信息就变成了电子信息。“传感器”是一种能够记录物理现象并将其转化为数字信息的设备。
 
  以下是一些例子,可较好地说明以模拟方式产生但以数字方式收集的资料:
 
  设备上的语音和/或视频内容——除了电话和其他形式的通信,商家还开始定期捕获基于视频和语音的交互,以提供增强的服务。
 
  其中包括Google Now、Cortana等数字助手以及车载语音导航系统等。
 
  个人健康数据——如心跳、血压、呼吸等等,这些个人的、潜在的非常有用的信息是由设备上的专用传感器收集的,使用如Fitbit、Mi Band这样的设备,以及越来越复杂的智能手机应用程序,如Google Fit,无需任何特殊设备就能做到这一点。
 
  家用电器上的摄像头——视频游戏机等设备上的摄像头和传感器(Kinect就是一个相关例子)可以记录详细的人类互动,除了与设备本身进行基本互动外,还可以挖掘大量信息。
 
  虽然不像“天生数字化”数据那样是一个庞大的类别,但技术成本日益降低,以及数字、网络化设备的普遍使用,正导致传统上本质上类似的信息被捕捉并以快速增长的速度使用。
 
  数据收集与存储
 
  传统数据的处理通常采用提取、转换、加载(ETL)方法,该方法用于从外部数据源收集数据,修改数据以适应需要,然后将数据上传到数据存储系统中,供将来使用。
 
  如电子表格、RDBMS数据库、结构化查询语言(SQL)等技术,最初都是用来执行这些任务的,通常都是手工完成的。然而,对于大数据来说,传统的方法既低效又不能满足现代使用的需求。
 
  大数据中使用的大多数解决方案都依赖于两个主要组件来存储数据:分布式系统和运行在非关系(内存)数据库系统上的大规模并行处理(MPP)。
 
  传统上,数据库性能和可靠性是使用纯性能指标(每秒浮点运算次数等)以及原子性、一致性、隔离性、持久性(ACID)标准来度量的。
 
  大数据应用中最常用的数据库系统如下:
 
  非关系型数据库
 
  传统上,数据库是结构化的实体,仅依赖于使用显式定义的关系将存储在其中的信息关联起来的能力。
 
  甚至在大数据出现之前,这一前景就已经成为利用大量存储信息的限制因素,这导致了非关系数据库系统的发展。
 
  非关系数据库也称为NoSQL数据库,包括MongoDB、Couchbase等。它们是为管理和存储非结构化数据而开发的。
 
  它们的目标是可伸缩性、灵活性和简化开发。
 
  这样的数据库更侧重于高性能的可伸缩数据存储,允许在应用层而不是数据库特定语言中编写任务,从而实现更好的互操作性。
 
  内存数据库(IMDB)
 
  为了克服传统数据库系统的性能限制,一些现代数据库现在使用内存数据库。这些系统管理服务器RAM内存中的数据,从而消除存储磁盘输入/输出。
 
  与传统数据库系统所需的分钟或小时相比,这几乎允许来自数据库的实时响应。
 
  这种性能上的改进是如此之大,以至于人们正在为使用IMDB系统开发全新的应用程序。
 
  这些IMDB系统也被用于对大数据的高级分析,特别是为了提高数据的访问速度和分析模型的评分率。
 
  IMDB的例子包括VoltDB、NuoDB、SolidDB和Apache Spark。
 
  混合系统(Hybrid Systems)
 
  这是在大数据应用处理或分析数据之前用来存储数据的两大系统。
 
  然而,数据存储和数据管理之间的差别很小,大多数数据库系统还包含各种独特的属性,以满足特定类型的分析。
 
  Apache Hadoop33是一种非常常用的混合系统,它处理存储和数据感知。
 
  Apache Hadoop由两个主要组件组成:用于大数据存储的HDFS和用于大数据分析的MapReduce。
 
  Hadoop中的HDFS存储功能提供了一个可靠的分布式文件系统,可以跨多个系统存储,用于处理和冗余。
 
  文件系统针对大型文件进行了优化,因为单个文件被分割成块并分布在称为集群节点的系统中。
 
  此外,节点之间的数据由复制机制保护,即使任何节点失败,复制机制也确保可用性。
 
  Hadoop的冗余性、速度、在商品硬件上运行的能力、行业支持以及快速的发展速度,使得它几乎与大数据同步。
 
  数据意识
 
  在大数据背景下,数据感知的任务是在一组数据中创建一个关系方案,允许数据的不同用户确定流动但有效的数据上下文,并将其用于他们想要的任务。
 
  它是一个相对较新的领域,目前大部分工作都是在语义结构上进行的,以允许数据以互操作格式获得上下文,这与当前系统不同,在当前系统中,数据使用惟一的、特定于模型的构造来获得上下文(如XML模式等)。
 
  这个领域的一些原始工作是以使用资源描述框架(RDF)的形式进行的,RDF的构建主要是为了以一种可移植的方式描述数据。
 
  SPARQL是用于实现基于RDF的设计的语言,但在公共领域和大数据领域,这两种语言都没有得到充分利用。
 
  Kurt Cagle和Bob DuCharme等作者预测,它将在未来几年爆发。
 
  企业也开始意识到互操作上下文的价值,Oracle Spatial和IBM的DB2在过去3年中已经包含了RDF和SPARQL支持。
 
  尽管没有得到充分利用,但该领域的快速发展将使数据意识对Hadoop甚至SQL这样的大数据产生影响。
 
  其中一些方面已经开始应用于人工智能、自然语言处理等领域,具有巨大的发展空间。
 
  数据处理与分析
 
  数据处理主要有三个目标:确定所收集的数据是否具有内部一致性;使用他们能够理解的隐喻或类比,使数据对其他系统或用户有意义;并且(许多人认为是最重要的)基于过去的数据和趋势提供对未来事件和行为的预测。
 
  这是一个非常广阔的领域,技术日新月异,本节主要关注数据分析中最常用的技术。
 
  为了进行有效的处理,数据分析需要满足四个主要条件:快速、数据加载、快速查询处理、有效利用存储和适应动态工作负载模式。
 
  通常与满足这一标准以及大数据相关的分析模型是MapReduce。
 
  MapReduce是一种通用的并行编程概念,源于函数式编程语言的“Map”和“Reduce”,特别适合大数据操作。
 
  它是Hadoop的核心,并在其他大数据系统中执行数据处理和分析功能。
 
  MapReduce通过将任务分解为多个步骤并在多个系统中并行执行这些步骤来操作。
 
  这样做有两个好处,一是缩短了完成任务所需的时间,二是减少了执行任务所花费的精力和精力。
 
  该模型非常适合大数据操作所需的大数据集和快速响应时间。
 
  还有其他一些更小众的模型和算法(如LinkedIn使用的Voldemort项目),它们也被用于大数据。
 
  数据治理
 
  数据治理是对原始大数据以及大数据产生的经过处理的信息进行管理,以满足法律、法规和企业强加的要求。
 
  虽然数据治理没有标准化的格式,但各部门(尤其是医疗保健部门)越来越多地呼吁创建这种格式,以确保全面可靠、安全和一致地使用大数据。
 
  以下策略和技术已被应用或建议用于数据治理,并取得了不同程度的成功:
 
  零知识系统(Zero-knowledge systems):该技术建议对底层数据保持保密性,同时允许对加密数据进行某些高层抽象的检查。
 
  为了使系统为零知识,客户机的系统必须加密数据并将其发送给存储提供程序。
 
  因此,提供程序以加密格式存储数据,除非拥有将数据解密为明文的密钥,否则无法对其进行相同的解密。
 
  这允许个人向存储提供程序存储数据,同时保持包含在此类信息中的详细信息的匿名性。然而,这些目前只是开始在简单的情况下使用。
 
  到目前为止,它们还不能扩展到非结构化和复杂的情况下,在用于研究和数据挖掘目的之前,必须对它们进行少量的开发。
 
  同态加密:同态加密是一种隐私保护技术,它对加密的数据执行搜索和其他计算,同时保护个人隐私。
 
  然而,在大数据时代保护隐私的背景下,这一技术一直被认为是不切实际的,并且被认为是近期不太可能的政策选择。
 
  多方计算:在这种技术中,计算是在加密的分布式数据存储上进行的。
 
  这种机制与同态加密密切相关,在同态加密中,使用称为“collusion-robust”的加密算法将单个数据保持私有,而用同样的算法计算统计数据。
 
  涉及到的各方都知道一些私有数据,并且他们每个人都使用一个协议,该协议根据他们知道的和不知道的信息产生结果,而不揭示他们不知道的数据。
 
  因此,多方计算有助于在不损害个人隐私的情况下生成用于统计和研究目的的有用数据。
 
  差别隐私:尽管这项技术的发展与加密有关,但它遵循的是一种不同的技术。
 
  差别隐私的目的是最大限度地提高计算和数据库查询的精度,同时降低数据库中有记录的数据所有者的可识别性,通常通过混淆查询结果来实现。
 
  这在今天大数据的存在中得到了广泛的应用,以保证隐私的保护,同时试图获得大规模数据收集的好处。
 
  可搜索加密:通过这种机制,数据主体可以在最小化暴露和最大化隐私的同时确保某些数据可搜索。
 
  数据所有者可以通过搜索引擎以加密格式提供数据,但通过添加由某些关键字组成的标签(这些关键字可以被搜索引擎破译),从而使其信息可用。
 
  当使用这些特定的关键字进行搜索时,这些加密数据会显示在搜索结果中,但是只有当用户拥有解密信息所需的密钥时才能读取这些数据。
 
  这种加密技术为个人数据提供了最大的安全性,并尽可能地保护隐私。
 
  K-匿名性:为了保护隐私,避免重新识别,目前正在应用k-匿名性的特性。
 
  如果个体特定的数据可以被发布并用于各种目的而不会被重新识别,某一数据集被认为具有K-匿名性。
 
  对数据的分析应在不将数据归于数据所属的个人的情况下进行,并应对此提供科学保证。
 
  身份管理系统:这些系统使个人能够建立和保护自己的身份,利用属性来解释这些身份,跟踪他们的身份活动,如果他们愿意,还可以删除他们的身份。
 
  在分析数据之前,它使用加密方案和协议对个人的身份和证书进行匿名或假名化处理。
 
  隐私保护数据发布(PPDP):这是一种向分析人员提供个人信息的方法,这种方法能够从数据库中解码特定的信息,同时防止推断可能导致侵犯隐私的某些其他信息。
 
  分析所必需的数据将提供给处理者,而敏感数据将不予以披露。这个工具主要关注微数据。
 
  隐私保护数据挖掘(PPDM):该机制使用扰动方法和随机化以及加密技术,以便允许对不包含任何形式敏感信息的过滤版本的数据进行数据挖掘。
 
  与PPDP不同,PPDM侧重于数据挖掘结果。
 
  结论
 
  目前,尽管88.32%的被调查者认为大数据“杀熟”现象普遍或很普遍,但消费者发现被大数据“杀熟”后,由于其存在复杂性和隐蔽性,维权举证确实存在困难。
 
  理解大数据背后的复杂技术和原理,有助于让大数据应用的过程更加透明,并对大数据技术可能造成的危害进行预防和监管。
THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论