加载中 ...

存储系统的那些事

2019-03-23 07:29:13 来源：沈阳软件公司作者：沈阳软件开发

　　新存储的第二大亮点是修复速率，我们把单盘修复时间从 3 小时提升到了 30 分钟以内。修复时间同样对提升可靠性有着主要意义（后面讨论可靠性的时间我们给出详细的数据）。这个缘故原由是比力容易明白的。假设我们的存储允许同时坏 M 块盘而不丢失数据，那么集群可靠性，就是看在单元修复时间内，同时损坏 M+1 块盘的概率。例如，假设我们修复时间是 3 小时，那么 3 副本集群的可靠性就是看 3 小时内同时损坏 3 块盘的概率（也就是丢数据的概率）。

　　让我们回到存储系统最焦点的指标 —— 可靠性。首先，可靠性和集群规模是相关的。假设我们有 1000 块磁盘的集群，对于 3 副本存储系统来说，这 1000 块盘同时坏 3 块就会发生数据丢失，这个概率显然比 3 块盘同时坏 3 块要高许多。基于这一点，有些人会想这样的土要领：那我要不把集群分为 3 块磁盘一组互为镜像，1000 块盘就是 333 组（欠好意思多了1块，我们忽略这个细节），是不是可以提升可靠性？这些同砚忽略了这样一些要害点：

3 块盘同时坏 3 块盘（从而丢失数据）的概率为 p，那么 333 组这样的集群，丢失数据的概率是 1-(1-p)^333 ≈ p * 333，而不是 p。互为镜像的贫苦之处是修复速率存在瓶颈。坏一块盘后你需要找一个新盘举行数据对拷，而一块大容量磁盘数据对拷的典型时间是 15 小时（我们后面将给出 15 小时同时坏 3 块盘的概率）。要想提升这个修复速率，第一步我们就需要打破镜像带来的约束。

　　若是一个存储系统的修复时间是恒定的，那么这个存储集群在规模扩大的时间，一定陪同着可靠性的降低。以是最理想的情形是集群越大，修复速率越快。这样才气抵消因集群增大导致坏盘概率增添带来负面影响。盘算讲明，若是我们修复速率和集群规模成正比（线性关系），那么集群随着规模增大，可靠性会越来越高。

　　下表列出了1000块硬盘的存储集群在差别存储方案、差别修复时间下的可靠性盘算效果：

副本存储方案	容错度（M）	修复时间	数据丢失概率（P）	可靠性
3副本方案	2	30分钟	1. 00E-08	8个9
		3小时	1. 00E-05	5个9
		15小时	1. 00E-02	2个9
28+4算术冗余方案	4	30分钟	1. 00E-16	16个9
		3小时	1. 00E-11	11个9
		15小时	1. 00E-07	7个9

　　对于数据丢失概率详细的盘算公式和盘算要领，由于篇幅所限，本文中不做睁开，我会另找时机讨论。

　　对我小我私家而言，七牛新一代云存储（v2）的完成，了了我多年的夙愿。但七牛不会就此制止脚步。我们在存储系统上又有了一些好玩的想法。从久远来说，单元存储的成本会越来越廉价（硬件和软件系统都市推动这个生长趋势）。而存储系统一定会越来越庞大。例如，有赖于超高的容错能力，七牛对单块磁盘的可靠性要求降低了许多，这就为未来我们接纳桌面硬盘而不是企业硬盘作为存储介质打下基础。可是单块磁盘可靠性的降低，则会进一步推动存储系统往庞大的偏向生长。基于这个推理，我以为存储一定需要转为云服务，成为水电煤一样的基础设施。存储系统越来越庞大，越来越专业，这就导致自建存储的难度和成本越来越高，自建存储的须要性也沈阳软件定制越来越低。一定有那么一天，你会发现云存储的成本远低于自建存储的成本，到时自建存储就会是纯投入而无产出，也就没有几多人会去热衷于干这样的事情了。

3/4 首页上一页 1 2 3 4 下一页尾页