是谁撬动了数据存储的蛋糕

小I同学
根据多家机构的数据,2016-2019年,全球云存储市场维持20%以上的高增速。预计2022年全球云存储市场规模将达到2700亿美元以上。虽然云存储市场的规模和用户在飞速增长,但是作为云存储的主要商业模式-中心化存储正暴露出越来越多的缺陷。
          “对数据来说,全周期的产权确认和摩擦成本的降低才能实现数据交易价值的最优化。”
 
          1、数据增长的隐患
 
          数据生产创造价值。随着移动互联、社交媒体、物联网、云计算、人工智能等数据技术的迅速发展和深入运用,出现了海量、多样和即时的数据。基于对这些数据的分析,人们采取了一系列的决策和行动,从而在消费者市场、流行疾病预测、交通管理等领域取得了引人注目的成绩。这些基于数据价值分析的行为逐步的改变我们的生活、学习、工作的方式,在社会各方面、产业各领域迅速扩展和渗透。数据作为一种有价值的商品正在人类社会中扮演越来越重要的角色。这些有价值的数据,大量存储在各大厂商的云端,构成了庞大的云存储市场。
 
 
          根据多家机构的数据,2016-2019年,全球云存储市场维持20%以上的高增速。预计2022年全球云存储市场规模将达到2700亿美元以上。虽然云存储市场的规模和用户在飞速增长,但是作为云存储的主要商业模式-中心化存储正暴露出越来越多的缺陷。
 
          数据无法确权:服务商缺乏对用户数据的版权保护手段和动机。
 
          个人隐私保护缺失:现在行业数据非常重要,竞争对手往往会想方设法的获取数据,而将用户数据泄露或出售的行为往往可以让数据存储服务商获得巨大的利益。而且由于文件整体或切片的形式存储在单一或分布式的网络或服务器上,比较容易被攻击,数据泄露事故也呈逐年上升趋势,这里面有黑客的攻击,也有运营方自己恶意造成的。
 
          服务商跑路风险:现在的云存储市场竞争也非常激烈,由于用户数的上升,为了保证良好的用户体验,导致服务商成本上升,暂时也没有很好的盈利手段,因此近年来服务商跑路或是停止服务的新闻屡见不鲜,用户却无法对服务商的行为有任何约束和索赔的行为。这就造成用户往往倾向于将数据存储在规模更大,更有信用的服务商处,数据集中化程度越来越高。
 
          数据变现困难:由于中心化存储的空间,带宽都是为服务商为自己的业务购买的,保存的数据无法利用这些基础设施参与市场行为,同时存储的数据没有版权机制,数据的价值化路径不确定,流动性降低,交换受限的数据价值不高。
 
          2、数据持久化与流动的割裂
 
          正因为上面这些问题,产生了数据孤岛问题。在现有的中心化存储中,是以网盘/软件/应用为中心的设计,各个服务商之间,各个企业部门之间,各个用户逻辑空间内独立存储,独立维护,相互孤立。由于缺乏确权机制,网络协议没有统一标准,不同的服务商之间有不同的数据维护方式,对数据交换过程中的一致性认定也不统一,网络资源之间的分润关系等更是难以协调的矛盾,造成数据共享的常态经常是数据持久层->用户层->数据持久层,产生高昂的交易费用和时间成本。为了解决数据孤岛,人们开始使用去中心化协议、区块链技术来对数据进行确权,对共享数据进行激励。
 
          现有大概三种去中心化的解决方案:
 
          偏中心化的存储方案:这种类型的方案一般是早期分布式存储与区块链结合的产物,用户通过出租自己的空间给运营商,运营商通过中心化的运营和区块链代币机制来进行用户分润,使得用户获得类似于中心化存储的体验,同时存储费用大大降低。但由于是中心化运营,除了存储费用大大下降外,无法解决上面的四个问题。
 
          去中心化存储协议:去中心化存储是一种通过分布式存储技术将文件或分片存储在不同生态参与方提供的空间上的存储模式。它主张隐私保护、低成本、数据冗余备份、高速共享等价值主张、程序开源,社区治理模式,有利于规避单点故障和数据的价值传递。针对上面的中心化存储的问题,去中心化存储基于区块链技术,通过链外存储和API接口,使得存储网络的TPS在现有公有链和联盟链的基础上得到大幅改善;并且,通过对生态参与方进行激励和惩罚措施,使其遵守一定的运营规则,不需要或很少需要中心化治理机构。由于版权得到区块链的确权,数据价值可以在链上自由流动。并且拥有一定的共享能力,在多个节点完成相互共享数据分片的过程中,实现分片在存储节点之外的共享分发,并不断扩大该文件共享网络中的节点数。因此,去中心化存储系统弥补了中心化存储系统传输速度慢的缺陷,同时克服了单点故障并保证了数据的安全性。但由于数据分片在存储协议中以DHT表的形式存在,通过中心化的检索服务来寻找数据,同时由于数据上链,各种交易费的存在,造成摩擦成本较高,而且在共享分发过程中的节点也没有很好的激励措施,比较适合存储存取不是特别频繁的“冷”数据。
 
          去中心化共享协议:这类协议以BT协议为代表,存储网络采用P2P的模式,检索协议采用DHT+中心化traker的方式,方便用户检索数据,交易费几乎没有,所以引来大量的用户参与。但是现有的共享协议网络,对于数据存储没有确定的持久性协议,对于数据交换也没有明确的价值转移通道,单纯通过在线时间,计量共享贡献的模式获得激励,虽然解决了共享过程中的资源囚徒困境,但工作量缺乏全网共识,尚没有比较合理的经济模型设计。同时对于数据权益也缺乏控制,因此无法在合规前提下对版权数据进行共享分发。由于共享经济的特性,热度高的数据会得到大量的分布,偏冷的数据则没有动力去维护,甚至在网络中“消失”,所以比较适合“热”数据存储。
 
          可以看到,现有的存储/共享协议或多或少的解决了中心化存储的诸多问题,但是还是不能在可用性和性价比上胜过中心化存储模式,究其原因,除了加密经济学设计问题以及社区项目方目标不协调之外,主要的问题还在于对于数据持久化与流转的设计理念上的不足。这些协议在存储和共享功能层解决了信任问题和激励问题,但是数据持久化和流转是一个闭环逻辑,整个链路上对某个环节考虑的缺失,将对整个平台的可用性造成影响。DSP Labs从一开始就发现了这个问题,于是我们试着从另一个角度来看整个问题。
 
          3、数据的全生命周期与科斯定律
 
          首先,数据是有价值的。数据的价值在于对于不同的消费者,可以通过对数据不断的分析,不断的学习,从而指导接来下策略和行动,从这个角度看,数据是很重要的资源。作为资源,数据也可以在经济活动中流转,在不断的价值交换过程中实现其最大的价值。通过科斯定律,DSP Labs从数据生命周期中得到一些启发。
 
 
          “科斯定律:只要财产权是明确的,并且交易成本为零或者很小,那么,无论在开始时将财产权赋予谁,市场均衡的最终结果都是有效率的,实现资源配置的帕累托最优。”
 
          这里我们需要确定的财产权是数据的归属权,交易成本是状态转移的摩擦成本。科斯定律告诉我们,对数据来说,全周期的产权确认和摩擦成本的降低才能实现数据交易价值的最优化。根据上面三个去中心化协议来分析,偏中心化方案,对于数据的生成,持久化并没有好的产权确认方案,大部分还是基于自身运营的数据和服务商的信用来保证。没有确权这个前提,交换就存在价值确权不明晰的问题,对后期数据确权造成很大的问题,不利于数据流转。数据流转获得价值。而去中心化存储协议在产权界定方面做得不错,产权界定确定权益分配。部分项目对前三阶段都能确定产权,做到利益分配,第四阶段则大部分在消费者内部完成,不对整个链条输出价值。虽然确权做的不错,但是去中心化存储协议还是存在摩擦成本过高的问题,即链上交易费,检索费用过高的问题。共享协议则在两方面都还有很长的路要走。
 
          可见,数据生命周期产权界定不清和摩擦成本过高制约了整个数据价值化的的闭环逻辑。
 
          4、可能更优的策略
 
          DSP Labs试着从整个数据生命周期的角度重新来设计协议。
 
          首先,我们需要明确各个阶段的数据产权。
 
          利用区块链,我们可以实现对数据所有权的确认,包括版权。在区块链不可篡改,全网统一的分布式账本中,会详细记录数据创建的时间,位置,属性,所有者等等一系列的信息,还可以保存数据分发权限,对数据做到产权明晰,权限可控。这是实现数据流转价值的基础。因此,在持久化阶段,基于分块的可扩展的分布式存储网络必不可少,不仅完成了存储功能,同时也是后面数据流转的参与者。
 
          服务承诺
 
          数据持久化和流转阶段的数据产权也需要确认。在持久化期间,用户通过存储费用的方式购买了服务节点的服务,服务节点需要对用户的数据做出完整性的承诺,这个承诺在区块链上表明了持久化期间数据的产权关系。而在流转过程中,也需要对流转的数据进行产权界定,即在数据分享过程进行可全网共识验证的支付承诺,收到数据的一方向另一方支付数据费用,代表了数据权益的一种转移。
 
          分享过程中,由于有支付承诺,可以对链路涉及的节点进行激励,因此可以大大提高其他节点的积极性,积极参与到整个共享过程中来。而且由于数据的支付承诺是由区块链来负责共识结算的,因此无谓的重复传输,并不会给节点带来额外的收益,避免了资源的浪费。
 
          代理承诺
 
          此外我们又引入代理网络协议。代理网络为大量在二层网络之下,无法提供稳定的网络地址的设备提供了一种数据流转的途径。一来降低了接入门槛(成本),引入了大量的边缘设备,二来为数据的流转增加了固定的服务节点,提高了系统的可用性。同样,根据服务承诺的要求,代理网络需要数据代理承诺来得到数据转移分润。其实这也是降低摩擦成本(增加数据交换成功率)的一种方式。
 
 
          降低摩擦成本
 
          在数据持久化和流转过程中,摩擦成本来自于这几个方面:链上交易手续费,第三方数据检索费用,区块链账本可能的分叉造成的数据回退。
 
          由于链上交易手续费的存在,不能频繁的调用链上逻辑,因为这样会造成摩擦成本过高。链下支付,链上结算的layer2高速支付协议,则可以高效率的完成链下的分块共享支付逻辑,同时减低链上结算的成本。此外将文件的分块映射信息用区块链合约进行管理,并在实现layer2支付协议的节点上提供分布式的合约检索服务。每一个数据接收方,在收到数据的同时,可以将自己拥有的数据分块信息在支付节点上进行公开,其他节点可以迅速得到分片信息,并通过支付的方式得到该数据分片,并进一步广播分片信息,这个过程大大提高了分享的效率。同时支付网络和检索服务进行了合并,用户不需要费用即可进行检索服务,支付网络也没有作恶的动机,因为这会影响它的支付承诺分润。
 
          强一致性的共识网络
 
          最后,我们需要一个快速收敛的,效率高,强一致性的共识网络,来降低数据回退的风险。如果存在数据分叉或是回退的风险,那么整个平台确认交易的延时会非常高,时间成本也是一种很重要的摩擦成本,此外业务流程也会因此取消或超时,这将影响整个网络的功能体验。
 
          5、结语
 
          数据生产创造了大量价值,中心化存储的商业模式存在一系列的隐患。
 
          现有的去中心化协议或多或少的修补了中心化存储的弊端,利用区块链明确了用户对数据的所有权,这是数据流转的基础。
 
          根据数据生命全周期模型,DSP Labs利用科斯定律重新设计了一个可能更优的分布式数据协议,包括:
 
          基于分块的可扩展的分布式的存储协议
 
          链下支付,链上结算的二层高速支付网络
 
          基于区块链的地址映射逻辑和分布式的数据检索方式
 
          为了降低网络接入门槛的代理网络协议
 
          一致性更好,效率更高的区块链网络
 
          最后,数据生成创造价值,数据流转获得价值。
THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论