外贸SEO

当前位置/ 首页/ 电商/外贸SEO/ 正文

简单了解下-分布式存储系统解决方案

在工程架构领域里,存储是一个非常重要的方向,这个方向从底至上,我分成了如下几个层次来介绍:
 
硬件层:讲解磁盘,SSD,SAS, NAS, RAID等硬件层的基本原理,以及其为操作系统提供的存储界面;
操作系统层:即文件系统,操作系统如何将各个硬件管理并对上提供更高层次接口;
单机引擎层:常见存储系统对应单机引擎原理大概介绍,利用文件系统接口提供更高级别的存储系统接口;
分布式层:如何将多个单机引擎组合成一个分布式存储系统;
查询层:用户典型的查询语义表达以及解析;
分布式系统主要分成存储模型和计算模型两类。本文主要描述的是存储模型的介绍。其中计算模型的分布式系统原理跟存储模型类似,只是会根据自身计算特点加一些特殊调度逻辑进去。
 
分布式层
分布式系统简介
 
任何一个分布式系统都需要考虑如下5个问题:
 
数据如何分布
 
就像把鸡蛋放进篮子里面。一般来说篮子大小是一样的,当然也有的系统支持不一样大小的篮子。鸡蛋大小也不一样,有很多系统就把鸡蛋给"切割"成一样大小然后再放。并且有的鸡蛋表示对篮子有要求,比如对机房/机架位的要求。
 
衡量一个数据分布算法好不好就看他是否分得足够均匀,使得所有机器的负载方差足够小。
 
如何容灾
 
分布式系统一个很重要的定位就是要让程序自动来管机器,尽量减少人工参与,否则一个分布式系统的运维成本将不可接受。
 
容灾问题非常复杂,有很多很成熟的系统也不敢保证自己做得特别好,那么来看看一个典型的系统都有可能出哪些问题吧:
 
机器宕机
 
这是最常见的故障了。系统中最容易出问题的硬盘的年故障率可能能达到10%。这样算下来,一个有1000台机器的集群,每一个星期就会有2台机器宕机。所以在机器数量大了之后,这是一个很正常的事情。
 
一般一台机器出故障之后修复周期是24小时,这个过程是人工接入换设备或者重启机器。在机器恢复之后内存信息完全丢失,硬盘信息可能可以保存。
 
一个分布式系统必须保证一台机器的宕机对服务不受影响,并且在修复好了之后再重新放到集群当中之后也能正常工作。
 
网络故障
 
这是最常见且要命的故障。就是该问题会大大增加分布式系统设计的难度。故障一般发生在网络拥塞,路由变动,设备异常等情况。出现的问题可能是丢包,可能是延时,也可能是完全失去连接。
 
有鉴于此,我们一般在设计分布式系统的时候,四层协议都采用TCP,很少采用UDP/UDT协议。而且由于TCP协议并不能完全保证数据传输到对面,比如我们再发送数据,只要数据写入本地缓冲区,操作系统就会返回应用层说发送成功,但是有可能根本没送到对面。所以我们一般还需要加上应用层的ACK,来保证网络层的行为是可预期的。
 
但是,即使加上应用层的ACK,当发送请求之后迟迟没收到ACK。这个时候作为发送方也并不知道到底对方是直接挂了没收到请求,还是收到请求之后才挂的。这个尤其是对于一些控制命令请求的发送尤为致命。

欢迎关注我们的微信公众号

微信公众号