當前位置：維易PHP培訓學院 > 服務器運維 > 內容正文

分布式存儲的架構、隱患及解決方法

作者：VEPHP 時間 2017-09-18

《分布式存儲的架構、隱患及解決方法》要點：
本文介紹了分布式存儲的架構、隱患及解決方法，希望對您有用。如果有疑問，可以聯系我們。

作者簡介:

顧炯

中國電信浙江公司中國電信云計算實驗室、SDx聯合技術開放實驗室專家委員.作為第一完成人,多個項目獲得省部級和集團級科技進步獎.

上篇中我們講了關于分布式存儲的知識結構的前三部分內容,存儲類型、文件系統、存儲介質等,可點擊下面的鏈接查看：

關于分布式存儲,這是你應該知道的(圖文詳解)

今天我們繼續來講講關于Raid和副本、分布式存儲的架構以及存在的問題和解決辦法,即下面四至七部分的內容：

一、存儲類型

二、文件系統

三、存儲介質

四、Raid和副本

五、分布式存儲的架構

六、分布式存儲存在的問題

七、解決的方法

四、Raid和副本

把磁盤們相同偏移量的一塊空間橫向進行分割,組成一條邏輯上存儲空間.

數據是先寫滿一條條帶,再寫下一條條帶.一個卷可以有很多條條帶組成.條帶的劃分應該的磁盤配置初級就完成.條帶包含扇區(或塊)的個數叫條帶長度；每個磁盤內包含屬于這個條帶的扇區(或塊)的個數叫條帶深度.

為什么要引入條帶的概念呢,是因為要解決單個磁盤一次只能同時并發一個IO和保證數據完整性.

Raid

圖14

我們知道磁盤的IO實際上是磁盤尋找對應扇區地址的過程,是在磁片旋轉和磁頭在機械臂的控制下橫向尋道的結果,而且一個磁盤一次只能完成一個IO申請,而通過條帶的方式可以讓多個磁盤一起協同完成任務,這種方法叫做raid0.

從理論上看磁盤越多,條帶深度越小,速度就越快.

但是也不是條帶深度越小速度就越快,因為深度太小,并發的概率就降低了.沒有了并發,就不會提高速度了.所以一般來說當隨機的小塊IO多,就適當加大條帶深度,當順序的大塊多,就減小條帶的深度.Raid0體現的是人多力量大的哲理.

但是如果raid0的方式下有一塊磁盤出現故障了,那數據的完整性被破壞了,數據不可用了.為了確保數據完整性,所以就有了raid1.

raid1就是將一份數據寫到2個物理磁盤上,即數據有鏡像,二數據副本.就算壞了一塊盤也不會導致數據不可用.和單塊盤比Raid1方式寫的慢,讀快,道理很明顯.

將raid0和raid1組合起來,就可以吸取各自的優點,但是要注意組合的順序,raid10比raid01冗余度高、數據更安全,如圖：

Raid

圖15

當左邊的raid10系統有一塊故障,底層數據是做raid1鏡像的,數據的完整性沒有被破壞,還可以再壞一塊另外raid1組的一個磁盤.

而raid01,當底層的raid0組的磁盤壞掉一塊,整個raid0組數據就無效了,所有的IO都會到剩下的raid0組,并且如果再壞一塊盤,整個數據就無效了.

Raid5和raid6也是常用的raid方法.

Raid5最少需要3塊盤,有1個數據副本和1個數據校驗；即最多可以壞1塊盤；
Raid6最少需要4塊盤,有1個數據副本和2個數據校驗,即最多可以壞2塊盤.

這些數據副本和數據校驗都均勻的打散在磁盤中.Raid5和raid6的磁盤利用率最低為66.7%和50％,是兼顧利用率和性能的方案.Raid6的安全性比raid5更好,性能差別不大.

Raid都有一定的計算量,來決定這些數據塊存放的磁盤、計算出校驗數據,或根據校驗數據計算出數據.這些都需要CPU和內存資源.為了減少對主機CPU和內存的壓力.現在一般在主機的PCI總線上配置raid卡,硬盤都連接在raid卡下.

Raid 卡其實就是一臺小型的計算機,有CPU、內存和緩存,減輕了主機的負擔.但是raid卡不能跨越主機,所以在分布式存儲中,網絡raid就不能利用本地的raid卡,只能用主機的CPU和內存.

綜合各種因素,分布式存儲一般都采用副本的方法.

五、分布式存儲的架構

一般來說,分布式存儲不管是文件存儲、對象存儲還是塊存儲的基本架構都是大同小異的.即客戶端或應用端、元數據(MDS)服務器和數據節點服務器.

Raid

圖16

客戶端和元數據服務器之間交互是“信令交互”,而客戶端到數據節點是“媒體交互”.元數據服務器或通過數據節點服務器獲取各節點服務器的基本配置情況和狀態信息.

比如,客戶端需要讀取某一個文件的信息,客戶端會將相應的要求發給元數據服務器：“喂!我需要XXX,存在哪里了”,元數據服務器查詢后回答“你到xxx服務器的xxx地址+xxx服務器的xxx地址取”.

客戶端拿到這個指示后,向這2臺服務器發出指令,數據節點獲得指令后,將相應的數據返回給客戶端.

大家可能都會奇怪,為什么塊存儲、對象和文件的架構都是一樣的.有什么區別呢?

我們在前面基礎知識講述中,塊存儲是一種裸設備,它是將存儲設備以“塊”的方式直接提供給客戶,由客戶自己的操作系統里的文件系統進行管理.

分布式塊存儲里是沒有文件系統的,是通過客戶端直接將最簡單明了的命令傳遞給存儲的“塊”來執行.
對象存儲和文件存儲雖然結構類似,但并不將存儲底層的“塊”直接提供出來,而是通過隱藏著一個文件系統,包裝成為“文件”或“對象”提供出來.

這些存儲“不挑”操作系統或終端,最終執行命令的是存儲里面的文件系統操控存儲執行的,所以共享性很好.

文件存儲通過“目錄+文件名+偏移量”來檢索,文件間有目錄層次的；

而對象存儲采用“唯一對象ID+偏移量”來檢索,對象扁平存儲的,是沒有層次的.而且塊、對象、文件存儲是可以相互轉換的,這個問題以后單獨講.

華為的FusionStorage是一個典型的“塊”存儲,我們來了解一下結構.

Raid

圖17

FusionStorage也分成了MDC、OSD和Client三部分.和其他分布式存儲重大的差別是:

MDC是記錄、更新OSD服務器、磁盤等的狀態,并把這些狀態數據實時同步給Vbs,由Vbs計算出來數據所落的位置.MDC可以單獨部署,也可以集中部署,也可以分布部署.

如果MDC全出現故障,并不會影響存儲的正常運行.

但是如果在MDC故障期間OSD的狀態發生了改變,比如某塊磁盤故障,就會導致部分IO訪問不正常.所以一般MDC部署在3臺OSD上,確保安全.

一般分布式存儲的MDC采用的是數據庫或內存儲數據庫來記錄數據塊和物理位置關系.客戶端向MDC發出詢問位置的請求,MDC查詢數據庫后返回請求數據的存儲位置.

這種方法存儲訪問的速度較慢,而且MDC作為交通的“樞紐”,絕對是整個存儲的核心,當MDC發生故障,會導致整個存儲都不能使用.但是采取這個方式,也有好處,比如可以根據不同需求設置不同的副本策略等.

VBS是計算數據塊存儲位置的重要網元.一個VBS就是一個“機頭”.VBS部署很靈活,有很多種部署方法,可以根據不同的需求進行選擇.

比如,在VMWARE虛擬機中,可以在物理機上開設一臺虛擬機部署VBS,在XEN/KVM部署在domain0上；或者部署在每臺OSD服務器上,或專門設置VBS服務器群.

圖18

VBS采取一致性哈希算法,如圖3,將數據塊的邏輯地址計算出KEY值.并將計算出來的KEY映射到哈希環上,在哈希環上劃分了N段(Partition),每個Partition對應一個硬盤,并根據出partition主和osd節點的映射關系ioview,和partitio主備對應的osd關系,得到該數據塊的路由,如圖4.

在寫入的時候,采用強一致性,即當主和備副本都返回寫成功后,才認為這個IO寫成功了.讀IO時只讀主副本,當主副本故障的時候,會在備副本中選舉出主副本.目前,一個資源池可以支持2000塊硬盤.

圖19

操作系統看到的連續的數據邏輯地址(LBA),實際上被打散到資源池內所有硬盤上了,類似所有硬盤都做了raid0,這樣就利用了所有磁盤的性能,提高了存儲的性能.

操作系統實際是直接讀寫物理磁盤的塊,并沒有封裝額外的文件系統,是一個raw設備.

OSD是一臺插了較多硬盤的X86服務器,我們采用的是12塊SATA 3T的硬盤作為數據的持久化存儲介質.

如果VBS不承載在OSD上,那么OSD服務器的計算壓力實際上很小,也沒有必要配置計算能力很強、內存配置很高的服務器.

上一篇文章計算過,12塊SATA盤提供的iops或吞吐量其實很有限,需要配置SSD作為緩存,加速存儲的性能.由此看來,分布式存儲的性能是由SSD的性能和熱點數據計算算法決定的.

和一般存儲不同,一般分布式存儲的寫性能會好于讀性能.主要是主和備副本寫入SSD就返回成功了,而SSD什么時候寫入硬盤,怎么寫入硬盤,客戶端是不知道的.

而讀數據的時候,如果數據是熱點數據,已經在緩存在SSD上,性能會很好,如果沒有在緩存中,就需要到硬盤中直接讀取,那性能就很差了.

這也是當分布式存儲在初始化的時候,測試性能指標不如運行一段時間后的指標.所以測試分布式存儲有很多陷阱,大家要注意.

為了提高存儲的安全性,達到6個9以上的安全性,我們采取的是通行的3副本(2副本在96塊盤以下,可以達到6個9).副本可以根據實際情況設置成為在不同機架、不同服務器、不同硬盤的安全級別.

當磁盤或主機故障,會被MDC監控到,會選舉主副本、踢出故障點、重構副本等操作.為了確保數據的安全,副本重構的時間很關鍵,我們要求,每T數據重構時間不超過30分鐘.

為了確保數據重構流量不影響正常存儲IO訪問流量,實現快速數據重構.我們沒有采取華為推薦的網絡方案,而是采用環形虛擬化堆疊的方案,交換機間的堆疊鏈路采用40G光路,如圖5.

將存儲的重構流量都壓制在存儲環形網絡中.交換機到服務器采用2*10G連接,可以根據情況采用主備或分擔的模式.

圖20

說過了“塊”存儲,再簡單了解一下“對象存儲”.

對象存儲是在同樣容量下提供的存儲性能比文件存儲更好,又能像文件存儲一樣有很好的共享性.實際使用中,性能不是對象存儲最關注的問題,需要高性能可以用塊存儲,容量才是對象存儲最關注的問題.

所以對象存儲的持久化層的硬盤數量更多,單盤的容量也更大.對象存儲的數據的安全性保障也各式各樣,可以是單機raid或網絡raid,也可以副本.

對性能要求不高,可以直接用普通磁盤,或利用raid卡的緩存,也可以配些SSD作為緩存.我們現在使用單機35塊7200轉4T SATA盤+raid卡緩存加速的自研對象存儲,并計劃在今年使用60塊7200轉8T SATA盤.即每臺服務器提供480T的裸容量.

Ceph和google基于GFS的存儲就是典型的對象存儲.

Ceph是目前最為熱門的存儲,可以支持多種接口.Ceph存儲的架構和華為的FusionStorage異曲同工,都是靠“算”而不是“查”.

一種是為數眾多的、負責完成數據存儲和維護功能的OSD.
另一種則是若干個負責完成系統狀態檢測和維護的monitor.

OSD和monitor之間相互傳輸節點狀態信息,共同得出系統的總體工作狀態,并形成一個全局系統狀態記錄數據結構,即所謂的cluster map.這個數據結構與特定算法相配合,便實現了Ceph“無需查表,算算就好”的核心機制以及若干優秀特性.

圖21

但數據的的組織方法是不同的.首先ceph的核心是一個對象存儲,是以對象為最小組織單位.

1、首先文件是被映射成為一個或多個對象.

2、然后每個對象再被映射到PG(Placement Group)上,PG和對象之間是“一對多”映射關系.

3、而PG會映射到n個OSD上,n就是副本數,OSD和PG是“多對多”的關系.

由若干個monitor共同負責整個Ceph集群中所有OSD狀態的發現與記錄,并且共同形成cluster map的master版本,然后擴散至全體OSD以及客戶端.

OSD使用cluster map進行數據的維護,而客戶端使用cluster map進行數據的尋址.

Google三大寶之一的“GFS”是google對象存儲的基礎.

分布式存儲存

圖22

核心不同是數據的組織架構：master服務器(即元數據服務器)保存了文件名和塊的名字空間、從文件到塊的映射、副本位置,由客戶端來查詢.是一個典型的信令和媒體分開的架構.

六、分布式存儲存在的問題

分布式存儲一般情況下都是靠“副本”來確保數據的安全性和完整性.每塊盤記錄的數據內容都不一樣,當某一塊盤出現問題,都需要從其他不同盤內的數據塊中進行快速的數據重構.

數據重構是需要時間的,如果大量盤同時故障,將會發生什么?另外,OSD的擴容,也會導致數據的遷移,也會影響存儲.

分布式存儲一般都采用副本的方式來確保數據的安全性.寫入磁盤前不需要進行額外復雜的計算,就可以將數據寫入磁盤,是最快速的方式.是一種空間換時間的方法,即想得到較好的存儲性能,就采用副本的方式.

當有副本出現丟失的情況,系統就會啟動數據重構.一般情況下,用于生產的分布式存儲采用的是3副本.副本一般放置在不同機架、不同服務器主機的硬盤上.3副本就是放置在3臺不同的服務器的硬盤上.

而每個用戶的數據是由很多個副本均勻的分布在存儲資源池內的所有主機上的.所以,可以認為任意一臺服務器會存儲著所有用戶數據的某些數據副本,一臺服務器出現故障,會影響所有用戶.

從理論上來說,副本方式可以允許n-1臺的服務器出現故障,n是副本數.比如3副本,不管這個分布式存儲資源池內有幾臺服務器組成,就只能允許2臺服務器出現故障.2臺服務器出現故障,其實這個存儲就很危險了.

當數據的持久化層OSD出現故障的時候,必須啟動副本的恢復工作,即要在短時間內恢復完整的副本數.不同存儲的結構、算法不同恢復的時間長短也不一樣.

但從副本恢復所使用到的磁盤、網絡等基礎設備是一樣的.今天我們從基礎角度上來分析,看看副本的恢復到底需要多少時間和當新增加OSD節點需要多長時間,并看看因為采用了X86服務器帶來的隱患.

我們在實驗室內做了實驗,具體了解一下：

試驗環境：2臺萬兆交換機、4臺X86服務器(12塊3T 7200轉 SATA盤+1塊1.2G PCIeSSD).包括所有副本在內,每塊磁盤有1T數據,共有48T數據.

實驗一:無IO情況在,拔出一個磁盤

實驗二:在存儲上建立了4個360G的虛擬卷,加載少量的IO,即8K隨機讀寫,隊列深度為1,總iops為2600左右.

在拔出一個磁盤后,在15分鐘后(可配,延遲15分鐘是為了防止無操作、無報警等),系統開始對缺失的副本進行重構,得出結果：

分布式存儲存

圖23(為了便于計算1T=1000G)

分析：

在實驗分布式存儲中,原來共有數據48塊1T數據,拔出1塊磁盤數據重構完成后,還是48T數據,即每塊盤增加了(1T/47)1000=21.28GB的數據.

在無IO情況下12分鐘內重構了1T的數據：

網絡速度：(11000 )/(1260)=1.39GB/s*8=11Gb/s,也就是說在無IO的情況下,網絡的總的流量是11Gb/s.其中3臺服務器網絡速度是2.84Gb/s,1臺被拔出硬盤的服務器流量是2.57Gb/s.為了計算方便,平均每臺服務器為2.75Gb/s,網絡利用率是27.5%.

磁盤寫入速度：21.281000/(1260)=29.56MB/s.

在少量IO情況下24分鐘內重構了1T的數據：

網絡速度：(11000 )/(2460)=1.39GB/s*8=5.5Gb/s,也就是少量IO的情況下,網絡的總的流量是5.5Gb/s.

平均每臺服務器為是1.38Gb/s.

磁盤寫入速度：21.281000/(2460)=15MB/s.

實驗現象：

1、無流量壓力情況下數據重構速度即每塊盤最大寫速度為30MB/s.但隨著IO的增加,寫的速度也會越來越慢.

2、雖然每個服務器接入網絡是10Gb/s,但受到存儲軟件的控制,重構時最大網絡利用率近30%.

在有IO的情況下,重構時間迅速增加.主要是為了不影響正常IO的處理,軟件對副本重構的速度進行了控制.

在實際生產中,用于副本重構的網絡利用率控制在5%以下,對存儲正常的IO不會產生影響.

由此計算:

29.56M/(27.5%/5%)=5.37M,即在10G接入網絡下,每臺服務器重構流量在0.5Gb/s( 62.5MB/s)和每塊磁盤讀寫數據在5MB/s以下,數據重構是安全的.

副本恢復的過程,實際上是從現有的磁盤中讀取需要重構的副本,再根據一定的規則寫入某些磁盤的過程.每塊盤承擔了讀取副本,也承擔了寫入副本的職責.也就是說平均每塊磁盤讀2.5M,寫也是2.5M.

從這個角度上看,每臺服務器配置12塊硬盤(60MB/s)是能產生讀寫能力和網絡( 62.5MB/s)能力匹配.服務器接入帶寬越大,可以配置的硬盤數量就越大.

小結：

1、如果主機和磁盤比大于等于12：

1TB數據重構時間=10008/(0.25n) ? ? ?n: 服務器數量

比如 57臺12塊磁盤的2P資源池重構1T數據的最短時間=(10008)/(0.2557)=560秒.

2、如果主機和磁盤比小于12:

1TB數據重構時間=10001000/(2.5m) ? m：參與重構磁盤數量

如果1臺12塊盤的服務器故障,最大重構36T數據,需要最短時間是342分鐘,5.7小時.

結論：服務器或參與重構的磁盤數量越多,重構的速度就越快

我們繼續實驗,在數據重構完成后,重新插入這塊盤,我們會發現,副本又開始重構了,但這次數據是搬家,并不生成新的副本.是因為系統認為插入了新盤,數據需要均衡導致的.

分布式存儲采用的是“共產主義”,擴容服務器的數量可以線性的增加存儲的能力,但新擴容的磁盤并不是只接受新的副本數據,而是需要搬遷寫入平均值大小的“老”副本數據.

實際上每次非正常IO的副本的寫入,都伴隨著其他節點副本的刪除.頻繁的寫入、刪除對磁盤的壽命有較大的影響.

我們再看看實驗結果：

分布式存儲存

圖24

在無io時,磁盤寫入的速度是68MB/s,68MB/s其實也已經達到SATA磁盤平均寫入速度的最大值的正常范圍.這樣,平均每臺服務器網絡中平均貢獻68*8/4=136Mb/s流量.

數據副本的搬遷是一個動態過程.磁盤里的數據副本一定有1/3的數據是主副本,可能會被正常的IO讀取到,所以新加入的磁盤也不是全力進行數據搬遷,也和其他磁盤一樣,只能用有限的能力應付副本遷移.

測試結果上看,在少量IO業務下測試磁盤寫速度為45MB/s, 平均每臺服務器網絡中平均貢獻90Mb/s.在無IO的情況下,數據完成重新部署居然需要4.3小時了.

大家一定沒有想到吧,因為這次是47塊盤共1T的數據搬到1塊磁盤上,就像47個人喂1個人吃飯,飯總得一口一口吃,所以增加磁盤的時候,在大部分情況下和網絡的速度無關,和磁盤寫入的速度直接相關.

上面提過,為了不讓副本遷移不影響正常IO,每臺服務器可以提供主機網絡的5%的帶寬,即62.5MB/s,磁盤讀寫為5MB/s來處理副本的遷移.

3、如果主機和磁盤比大于等于12：

一起重構的磁盤數量=62.5*n/m ?n：服務器的數量 m:磁盤寫入速度

4、如果主機和磁盤比小于12：

一起重構的磁盤數量=5*n/m ?n:磁盤的數量 ?m:磁盤寫入速度

如果m=5M,n= 57, 可以一起寫入磁盤=712塊

1-712塊磁盤,1T數據遷移完成最長需要55.56個小時.可以這樣認為,在目前2PB容量的分布式存儲,在不影響業務情況下,如果擴容在2PB以下,數據副本遷移1TB需要56個小時.

大家一直在問我,分布式存儲的風險在哪里.風險就是因為多副本特性所引起的.

首先不管這個集群有多大,最多可以有n-1臺服務器出現故障.一般是3副本,就是允許有2臺服務出現故障.

當出現故障的時候,就進行了數據重構,重構副本的時間相對較短,在2P的存儲,每T數據恢復需要10分鐘,恢復時間是以小時計.但是2臺服務器同時出現故障,本身存在的風險就很大了,應盡量避免.

當故障的服務器恢復了,重新加入存儲資源池,副本就需要遷移,那恢復的時間需要用天計算.所以當存儲的OSD出現故障到完全恢復的時間很長.但在正常情況下,還是能接受的.

但非正常情況呢?怎么會出現非正常情況呢?

因為分布式存儲常用的是X86服務器,x86服務器是有正常使用周期,大約是5年.同一批次的服務器的壽命是差不多的,在使用壽命的末期,服務器出現故障的概率是很大的.

1臺服務器發生故障,副本重構,可能會是最后一根稻草,導致服務器群的“老太太們”壓力發生變化,也出現故障.

一旦發生2臺以上的同時故障,存儲就會出現嚴重故障,存儲就只能停止服務,運氣好可以離線恢復數據,運氣不好,副本完全丟失,數據完全不可用了.

大家知道,在資源池里,存儲一旦停止服務,整個資源池就癱瘓了.這種情況一定會發生,只是早晚的問題,所以要提前干預,不能讓這樣的事情發生.

七、解決的辦法

于是定期更換服務器,別讓服務器變成“老太太”,不斷補充新鮮血液.但是,更換服務器和擴容不一樣,擴容的時候可以一下子增加幾十臺服務器,用個2天時間就可以靜悄悄的完成擴容.

更換服務器的過程是先將服務器退出服務,再增加服務器的過程.原來服務器上有多少數據,就需要搬遷多少數據,比如原來服務器每塊有2T數據了,就需要搬遷12*2T的數據.為了確保存儲的正常使用,最好只能同時退出n-2臺服務器,并增加相應的服務器.

比如3副本,就只能先退出1臺服務器,再增加1臺服務器.換1臺服務器需要2*2=4天時間.最多同時換2臺,但風險很大,萬一更換的過程中出現1臺故障,那這個存儲系統就掛了.

所以一臺一臺更替是最妥當的方法,57臺服務器全部替換完成,不停的干,順利的話,也需要大半年時間,算上節假日1年可能都做不完.這個過程漫長而復雜,充滿的變數,卻一定是可行的.

當然劃小分布式存儲的故障域,在一個故障域的服務器減少,對應替代服務器的工作時間相應減少了,風險也相應減小.但是分布式存儲是云計算快速發展后對存儲性能、容量帶來新需求發展起來的.

幾百臺服務器共享一個存儲,運行幾千、上萬臺虛擬機,從這個角度考慮,分布式塊存儲最好是一個可以無限線性擴容的存儲系統.但是就是因為有了上面的問題,只能將存儲資源池劃分成為一個一個較小的故障域.

這個故障域的大小我們認為在裸容量在2P(有效容量666T)、IOPS在100萬次以上是可以滿足資源池的需要,即在60臺服務器左右.

分布式塊存儲實際上是來替代所謂高端FCSAN存儲的.小集群替代低端小容量的FCSAN在價格上、性能上都沒有優勢.

如果只是服務器出故障,而磁盤是正常的,還有一種比較快速的人工介入辦法.這個辦法是一種應急方案的延伸.實現的原理就是利用檢測到磁盤故障后15分鐘后才啟動副本的重建.

如果15分鐘內磁盤又恢復了,那在故障時間內原來需要寫入的副本是需要追溯的.也就是說在這15分鐘內,其實有些副本只寫了2個,還有一個1副本原來要寫到這個磁盤中的.

如果15分鐘內原磁盤恢復了,就將增量數據補充進去,如果15分鐘不恢復,就進行副本重構.當然這個時間長短是可以配置,但不是所有的分布式存儲系統都有這個功能.

不少存儲系統一檢測到磁盤或服務器不在線,就會立即啟動副本重構,本質上就是沒有“追溯”.知道這個原理了,下面的事情就簡單了.

發現整臺服務器發生故障后,將服務器設置成為“維護/更換”模式,就不受15分鐘的限制了(可能需要新開發這模式).準備好裝了系統的服務器(不插入持久化層的磁盤),當主機發生故障或更換的時候,人工將故障服務器里的磁盤插入備用服務器里,加入存儲系統中,提供服務.

這個服務器,在寫入新數據的同時,還要追溯故障時間段的數據.

這種方法是應急方案的延伸,可以快速解決非磁盤故障的情況,但并不根本解決問題.因為如果這插拔磁盤的過程中,如果有一塊盤損壞了,又回到以前數據搬遷慢的問題上了.而且只換主機,不換磁盤,老化問題還是存在,還是不能高枕無憂.

全SSD分布式存儲的擁護者會興奮了,因為用全SSD的好像可以提高速度,加快這個過程.用全SSD的同時,最好也提高服務器接入的帶寬,比如用40G網卡或用IB網絡,不要讓網絡成為新的瓶頸,但分布式存儲帶來的隱患不可能根除,只是快了,問題還是一樣.

其實還有一個比較嚴重的老化問題——作為緩存的SSD.SSD作為整個存儲“性能擔當”在存儲中起到核心作用.但SSD的寫壽命是一個突出問題,怎么樣在線更換SSD也是一個需要解決的問題.

分布式“塊”存儲存在這樣的風險,服務器加載更多磁盤的對象存儲和文件存儲類似的問題更突出,風險更大.

存儲內的數據一定要有價值,因為存儲他們的代價很大.但是現在存儲的使用是一種多多益善的觀念,只管寫,不管刪,不管什么需求都往塊存儲里寫等等.存儲按需選擇類型和容量是目前存儲使用中遇到的最普遍問題,這個問題將來詳談.

分布式存儲當下不存在風險,而遠期的風險巨大!

文章出處：高效運維

轉載請注明本頁網址：
http://www.snjht.com/jiaocheng/4454.html

標簽：

欧美97色伦欧美一区二区日韩,国产福利片在线观看,freexxx性欧美vide0高清,西西亚洲,日本欧美国产精品第一页久久,成人18免费软件

PHP教程

WEB前端開發

數據庫

WEB服務器

APP開發

LINUX學習

后端開發課程

前端開發課程

數據庫課程

分布式存儲的架構、隱患及解決方法

四、Raid和副本

五、分布式存儲的架構

六、分布式存儲存在的問題

小結：

七、解決的辦法

同類教程排行

特輯教程

欧美97色伦欧美一区二区日韩,国产福利片在线观看,freexxx性欧美vide0高清,西西亚洲,日本欧美国产精品第一页久久,成人18免费软件

PHP教程

WEB前端開發

數據庫

WEB服務器

APP開發

LINUX學習

后端開發課程

前端開發課程

數據庫課程

分布式存儲的架構、隱患及解決方法

四、Raid和副本

五、分布式存儲的架構

六、分布式存儲存在的問題

小結：

七、解決的辦法

同類教程排行

特輯教程

分布式存儲的架構、隱患及解決方法

四、Raid和副本

五、分布式存儲的架構

六、分布式存儲存在的問題