IT运维 | 分布式系统介绍 | 信息化观察网

IT运维 | 分布式系统介绍

2020-10-15 11:35

互联网

分布式系统中的机器，配置不一样，其上运行的服务也可能由不同的语言、架构实现，因此处理能力也不一样;节点间通过网络连接，而不同网络运营商提供的网络的带宽、延时、丢包率又不一样。怎么保证大家齐头并进，共同完成目标，这四个不小的挑战。

随着现在应用系统越来越庞大，数据量越来越大。单个运算系统已无法满足日益增长的计算量了。从而引入了分布式系统概念。作为IT运维来讲，复杂的分布式系统有很多抽象概念不好弄明白，今天就跟大家聊聊这个话题。

分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据。首先需要明确的是，只有当单个节点的处理能力无法满足日益增长的计算、存储任务的时候，且硬件的提升(加内存、加磁盘、使用更好的CPU)高昂到得不偿失的时候，应用程序也不能进一步优化的时候，我们才需要考虑分布式系统。因为，分布式系统要解决的问题本身就是和单机系统一样的，而由于分布式系统多节点、通过网络通信的拓扑结构，会引入很多单机系统没有的问题，为了解决这些问题又会引入更多的机制、协议，带来更多的问题。在很多文章中，主要讲分布式系统分为分布式计算(computation)与分布式存储(storage)。计算与存储是相辅相成的，计算需要数据，要么来自实时数据(流数据)，要么来自存储的数据;而计算的结果也是需要存储的。在操作系统中，对计算与存储有非常详尽的讨论，分布式系统只不过将这些理论推广到多个节点罢了。那么分布式系统怎么将任务分发到这些计算机节点呢，很简单的思想，分而治之，即分片(partition)。对于计算，那么就是对计算任务进行切换，每个节点算一些，最终汇总就行了，这就是MapReduce的思想;对于存储，更好理解一下，每个节点存一部分数据就行了。当数据规模变大的时候，Partition是唯一的选择，同时也会带来一些好处:

(1)提升性能和并发，操作被分发到不同的分片，相互独立

(2)提升系统的可用性，即使部分分片不能用，其他分片不会受到影响

理想的情况下，有分片就行了，但事实的情况却不大理想。原因在于，分布式系统中有大量的节点，且通过网络通信。单个节点的故障(进程crash、断电、磁盘损坏)是个小概率事件，但整个系统的故障率会随节点的增加而指数级增加，网络通信也可能出现断网、高延迟的情况。在这种一定会出现的“异常”情况下，分布式系统还是需要继续稳定的对外提供服务，即需要较强的容错性。最简单的办法，就是冗余或者复制集(Replication)，即多个节点负责同一个任务，最为常见的就是分布式存储中，多个节点复杂存储同一份数据，以此增强可用性与可靠性。同时，Replication也会带来性能的提升，比如数据的locality可以减少用户的等待时间。

下面这张图形象生动说明了Partition与Replication是如何协作的。

Partition和Replication是解决分布式系统问题的一记组合拳，很多具体的问题都可以用这个思路去解决。但这并不是银弹，往往是为了解决一个问题，会引入更多的问题，比如为了可用性与可靠性保证，引用了冗余(复制集)。有了冗余，各个副本间的一致性问题就变得很头疼，一致性在系统的角度和用户的角度又有不同的等级划分。如果要保证强一致性，那么会影响可用性与性能，在一些应用(比如电商、搜索)是难以接受的。如果是最终一致性，那么就需要处理数据冲突的情况。CAP、FLP这些理论告诉我们，在分布式系统中，没有最佳的选择，都是需要权衡，做出最合适的选择。

分布式系统挑战

分布式系统需要大量机器协作，面临诸多的挑战:

第一，异构的机器与网络:

第二，普遍的节点故障:

虽然单个节点的故障概率较低，但节点数目达到一定规模，出故障的概率就变高了。分布式系统需要保证故障发生的时候，系统仍然是可用的，这就需要监控节点的状态，在节点故障的情况下将该节点负责的计算、存储任务转移到其他节点

第三，不可靠的网络:

节点间通过网络通信，而网络是不可靠的。可能的网络问题包括:网络分割、延时、丢包、乱序。相比单机过程调用，网络通信最让人头疼的是超时:节点A向节点B发出请求，在约定的时间内没有收到节点B的响应，那么B是否处理了请求，这个是不确定的，这个不确定会带来诸多问题，最简单的，是否要重试请求，节点B会不会多次处理同一个请求。

总而言之，分布式的挑战来自不确定性，不确定计算机什么时候crash、断电，不确定磁盘什么时候损坏，不确定每次网络通信要延迟多久，也不确定通信对端是否处理了发送的消息。而分布式的规模放大了这个不确定性，不确定性是令人讨厌的，所以有诸多的分布式理论、协议来保证在这种不确定性的情况下，系统还能继续正常工作。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

被迫5G？三大运营商4G套餐数量明显减少，办理渠道变窄

IT运维 | 分布式系统介绍

2024 信息化观察网

长按扫描二维码阅读原文

IT运维 | 分布式系统介绍

最新评论（评论仅代表用户观点）

面向现代化应用，火山引擎云原生究竟提供了哪些能力？

可持续发展将成2022年数据中心行业趋势关键词

安全运维管理建设思路

中北大学新一代校园网络升级建设

本月热门

把握智能制造大势，智能制造年度盛会在北京圆满落幕

智能制造盛会在京开幕!

自然资源部发布《自然资源领域数据安全管理办法》

“淘金”东南亚和“一带一路”，中国数字技术加速出海

盐城携手华为云打造“数据要素×盐城模式”，助力城市治理提质增效

农业机器人：全球农民的革命性工具

精选文章

助力武清打造全国领先自主可控人工智能产业高地

上海新晨陈基雄：数字化转型是金融科技的未来

推动数实融合发展 2022智能经济高峰论坛在京举行

牛振东：智能数字图书馆发展及其在企业创新服务中应用探索

2021第五届中国软件和信息服务业年度风云榜正式揭榜

二十余年变革与迭代华磊迅拓MES“进化论”

热点资讯

江陵县人大副主任薛文新一行到访国联股份玻多多

聚势赋能，共赢未来!肥多多受邀走访安哥拉驻华大使馆，开启非洲跨境布局新篇章!

首日盛况 | IOTE 2024 第二十一届国际物联网展在沪开幕

苏州冠礼科技跻身高新区优秀科技创新型企业光荣榜

向“服务型”云底座迈进武汉云“五心服务”全方位支撑武汉智慧城市建设

被迫5G？三大运营商4G套餐数量明显减少，办理渠道变窄

企业解决好这个问题，数字化转型不再是难题

IT运维 | 分布式系统介绍

最新评论（评论仅代表用户观点）

栏目推荐

面向现代化应用，火山引擎云原生究竟提供了哪些能力？

可持续发展将成2022年数据中心行业趋势关键词

安全运维管理建设思路

中北大学新一代校园网络升级建设

本月热门

精选文章

热点资讯

被迫5G？三大运营商4G套餐数量明显减少，办理渠道变窄

企业解决好这个问题，数字化转型不再是难题