《大話藍光存儲(4)光存儲系統生態》要點:
本文介紹了大話藍光存儲(4)光存儲系統生態,希望對您有用。如果有疑問,可以聯系我們。
在上一篇中,冬瓜哥為大家講述了光盤庫系統以及紫晶存儲推出的光盤庫系統.那么,哪些場景適合使用光盤以及光盤庫系統呢,光盤庫系統在整個存儲生態中與上下游的適配情況如何呢,有什么需要改進?本篇冬瓜哥就這個問題作簡要介紹.
光盤的優點是顯而易見的:成本極低;存儲密度高、體積小、重量輕、不怕光、不怕水、不怕磁、不占用太多物理空間;可隨機存取,使用中無磨損(磁盤和磁帶均有磨損,比如磁盤可能會隨機產生壞道,磁帶被磁頭讀寫的次數也是有限的),存儲壽命較長、低能耗,穩定性高,數據不可被篡改,安全性高.未來單盤片存儲容量規劃可達1TB、2TB、4TB.
當然,缺點也是不少,比如:單盤容量同時代與其他介質對比相對較??;與磁盤相比存儲速度較慢、實時性差;定位數據繁瑣;盤片離散管理不方便.
揚長避短,藍光存儲最適合的場景,莫過于溫數據以及冷數據的長期保存和管理.冬瓜哥看重的一點是,藍光盤的壽命,以及其介質與驅動器分離的特點.用移動硬盤保存數據風險極高,機械硬盤就算放著不動,指不定哪天再用就不認了.有人說了,現在閃存這么便宜,將來更便宜,用閃存卡、U盤等不適很適合永久保存珍貴資料么?大錯特錯.目前的NAND閃存存在數據持久性問題,NAND Cell中的電荷在一段時間之后就會自動漏電,目前看來唯獨光盤適合于長期保存資料而且還可以做到隨機讀取,磁帶則非常不便利,驅動器尺寸龐大,普及度更加有限,云哥和強哥那里基本搜不到,有也是一些二手的,價格也較高.
先看看個人用戶的需求.冬瓜哥在某個網盤里保存了大概2TB的數據,基本是一些陳年的工作相關文檔,經典電影電視劇,家庭照片視頻等東西,相信多數人保存的東西也不外乎這幾大類吧.其實隨著時間的推移,冬瓜哥發現,工作上所保存的那些文檔,基本可以說是破爛,訪問的幾率非常低,而那些保存的經典電影電視劇,基本上也不會再去看,除非將來孩子長大給孩子看,比如冬瓜哥還保存了六七十年代中國經典情懷兒童童話故事比如小蝌蚪找媽媽,雪孩子等等,但是誰知道五年后的社會會是一副什么熊樣,到處充斥著垃圾網游,無底線的所謂“互聯網思維”,不敢想啊.但是有一點是亙古不變的,那就是家人的照片和視頻,尤其是小孩的,一定要存好,不厭其煩的存多份,在各種介質上,包括網盤、移動硬盤、刻錄光盤.
冬瓜哥手一抖搜了一下號稱能買整個宇宙所有物質的云哥和強哥開的店.本以為藍光光盤和光驅的市場價格還是很不接地氣的,結果卻大跌眼鏡.強哥那里的25GB的藍光刻錄盤平均每張的價格在兩三塊錢,50GB的則普遍在8元上下,100GB的只在更屌絲的云哥那里搜到了,但是質量沒有求證過.
透露一下,目前國產的藍光盤,絕大多數都是從廣東紫晶存儲的產線下來然后貼牌的.目前紫晶的6條藍光盤產線處于24小時連續生產供不應求狀態.
至于刻錄機,100到1000的都有,直覺告訴冬瓜哥,六七百左右的應該算靠譜,要想刻廢的盤少點,買個九百的應該差不多.
冬瓜哥其實從來就沒關注過光存儲,相信多數人也基本不會關注.第一次聽到藍光那是五六年前了,那時候一聽還是高大上的東西,產能和生態都非常局限.目前看來,藍光應該說是已經大規模普及了.看來冬瓜哥有必要買個藍光光驅了,將一些私有內容刻錄保存,也是個不錯的選擇.冬瓜哥拍了一下自己手頭的移動硬盤,連自己看了都覺得感嘆,從最早的80G,120G,320G,500G,1TB,4TB,基本是每個檔位都有一個,最后連自己都不知道什么數據放在哪了.
設想一下,一個刻錄機,一個200槽位的光盤匣,也能保存接近10TB的數據.也不失為另一種選擇.由于每張盤也就100G級別容量,這樣還可以制作標簽貼上去表示里面存的是什么.
再看看企業應用領域哪些行業會產生大數據量的溫冷數據.網盤、數字圖書館、工業設計、CAD制圖/素材、電視臺媒資系統、醫療影像、地質勘探大數據、金融數據、檔案保存、常規備份(替代磁帶)等等.可以看到,在目前的大數據環境下,溫數據和冷數據的絕對量也是爆發式增長的,這就給光存儲系統提供了溫床.
網盤、微博等是個典型冷熱非常分明的場景.剛上傳的數據或者剛發的微博很熱,然后訪問頻率直線下降,但是又不能將冷數據直接離線,還得讓其訪問有一定的速度.對于數字圖書館,更是利用藍光存儲的絕佳場景,因為該場景屬于只讀不寫的場景,對速度要求也并沒有那么高,比如用戶調取某個文檔/視頻,可以等待幾十秒或者一分鐘,也不是不可以接受.對于工業設計領域或者播出系統中需要保存的大量素材資源,用光盤存儲系統也非常合適,能夠滿足低成本,不要求很高的實時性,要求保存時間長,只讀不寫等特性.
對于常規的數據備份場景,使用更加開放的光盤系統取代磁帶系統也是一個發展趨勢,目前越來越多的用戶開始嘗試使用光盤庫取代磁帶庫,因為前者成本更低(介質和驅動器的成本都相對較低),最重要的是,利用光盤存儲系統可以實現數據的隨機直接訪問,而并非磁帶那樣需要快進快退,實時性好了太多.所以,冬瓜哥認為磁帶存儲雖然還在發展過程中,但是其封閉的設備、技術、數據存取格式以及不方便的數據管理,會讓其逐漸失去備份場景下的領導地位.
然而,光存儲系統在當前的生態下,也面臨一些挑戰:
1.???數據的遷移策略,需要精確適配業務場景.上述的眾多業務場景,每種場景的冷熱分界點不甚相同,比如微博的數據冷熱分界線比如可能是2天(也就是說沒人再去翻看2天前的內容),而網盤的冷熱分界可能相比微博更模糊,比如上傳一周之后,還有可能被自己或者他人頻繁訪問.正因如此,數據管理層需要提供精細的、可調的觸發遷移的策略,可以根據生成時間、占用空間、訪問頻率、訪問類型(讀、寫、每次讀寫的數據量等)、數據類型(視頻、文檔、app等)等等維度來精確設置組合式策略.
2.???數據管理層需要感知到光盤庫系統的實時性,尤其是調取數據時.數據被遷移到光盤庫時一般是通過CIFS/NFS方式寫入到光盤庫前置服務器的緩沖空間的,所以寫入速度和實時性并不是問題.但是在調取數據時,如果數據已經被刻錄到光盤,那么調取時間是比較長的,通常在數分鐘級別.這需要上游一系列的層次對此感知和處理,比如在用戶體驗接口方面需要安撫住焦急等待的用戶,數據管理層則需要使用異步方式來調取數據.
3.???光盤庫系統自身的數據緩存及持久化策略的制定.光盤庫內部其實也是有一級緩沖空間的.光盤庫內置一個前置服務器,上面有一定數量的硬盤,對外采用CIFS/NFS(NAS)方式,接收上層遷移下來的數據.數據先被寫入NAS目錄,然后系統在后臺,根據一定的策略,將數據刻錄到光盤,并在NAS目錄中留下一個stub占位符,底層驅動截獲針對這些占位符的訪問,從而在后臺異步從光盤讀出數據并填充.數據會在什么條件下從緩沖區遷移到光盤,這就是持久化策略,這個策略需要在光盤庫的配置工具中配置,這一級的策略也會影響數據調取的實時性.
4.???光盤庫向上層系統所展示的訪問方式.冬瓜哥認為NFS/CIFS的方式比較適合于這種冷數據遷移場景.第一是其可以完全松耦合,即便是沒有上層數據管理層,單單使用光盤庫的話,NFS/CIFS也是非常方便的.有些產品采用塊設備的方式提供外界訪問,那就根本做不到這種靈活性,因為基于塊的數據遷移是無法保證數據邊界完整性的,比如某個文件可能部分塊被遷移到了光盤庫,另一部分依然在熱數據存儲層.塊級訪問非常適合于高性能存儲場景,光盤庫顯然不適合這種場景.除此之外,對象訪問方式也非常適合于光盤庫.所以,NAS、對象應該是光盤庫首選的外層訪問協議.
冬瓜哥認為,藍光光盤庫系統在硬件上已經沒有什么問題了,關鍵在于軟件上如何與上下游的數據管理體系適配起來,藍光存儲廠商需要在數據管理和訪問流程方面加大生態建設力度.?
對于一個 大型醫院而言,平均每年會增加幾十個TB的數據,其中有20TB是醫學影像數據.也難怪,目前白大褂們的原則似乎是能拍片的盡量拍,而不是能不拍的盡量不拍,產生如此多數據量也不足為奇了.
比如某三甲醫院,目前有130TB數據,按現在年增長速率(100%)來算,5年之內將突破1PB .而一個中等規模城市的衛生中心的數據量能夠達到10PB級別.
醫療系統數據主要包含兩大類:
非結構化數據:
?? PACS影像,B超、病理分析、醫學顯微等業務所產生的非結構化數據
?? 影像數據大小不一,從數百KB到數百MB;
?? 單個病人一次診斷需要存儲或者調閱數百張影像
半結構化數據:
?? 電子病歷等數據采用HL7或者其他XML格式
?? 這些格式隨時間變化,在不斷演變中
?? 很難制定統一的標準,給數據訪問和交換帶來挑戰
這些數據的特點是:
????????影像分辨率高,單個文件尺寸大
????????每一次檢查生成的影像數量多
????????每年醫院的檢查次數多
????????要求影像保留的時間長
影像訪問頻率在生成后最初一兩個月最高(主要用于治療),在最初的一到兩年內有所降低(主要用于分析和研究),之后會很低,但必須能夠被訪問到(用于查詢).具有很明顯的冷熱梯度和界限,剛好適合藍光存儲發揮作用.比如紫晶ZL系列光存儲系統,一個標準機架就可以存儲1.2PB容量的數據了,我們換算一下,如果利用4TB的SATA盤,4U60盤位中等密度方案,一個42U機柜總容量為3.2PB,其成本大致估算一下,1臺4U48盤的服務器,外加9臺4U 60盤位JBOD,差不多要65萬人民幣,相比藍光存儲系統高太多,還沒有算上用電成本.
【光存儲典型場景分析 – 檔案系統】
以地質資料檔案系統為例,地質資料館經過多年的信息化建設已初具規模,如兩化(集群化、產業化)項目積累了大量的信息化數據.現正實施的 “全國礦產資源普查和礦產資源潛力評價”項目也將產生大量數據.
其特點主要是:
l?數據量大
現有原史數據量為100TB,每年以20%以上的速度增長.
l?數據類型多
文檔、圖片、GIS、衛星數據等等.
l?文件數量多,目錄復雜
6TB數據多達1200萬個文件,
平均粒度僅45K,
超過200層目錄結構.
l?文件跨度大
單個文件的大小從KB到GB全部都有
目前面臨的主要挑戰為:
l?用戶刻錄的數據無法在線查找,需要人為查詢,速度慢、時間久
l?現在需要5-7人來刻錄和管理光盤,人員緊張,人力成本攀升.
l?隨著數據量爆炸式的增長(預計年增長率在20%以上),數據保有成本越來越高.
很顯然,該場景可以利用光存儲系統極大降低成本.
最后,作為國內光存儲系統的全自研廠商,附一張紫晶存儲的光存儲系統優勢對比表.
在下一篇中,冬瓜哥將展望一下未來,向大家介紹一下光以及光計算、光存儲的前言科技和展望,敬請關注!
作者:冬瓜哥
文章出處:大話存儲
轉載請注明本頁網址:
http://www.snjht.com/jiaocheng/4418.html