《互聯(lián)網(wǎng)時(shí)代運(yùn)維價(jià)值的重塑》要點(diǎn):
本文介紹了互聯(lián)網(wǎng)時(shí)代運(yùn)維價(jià)值的重塑,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
最近跟朋友聊起工作,我說(shuō)干運(yùn)維的,他略顯詫異的說(shuō)這行業(yè)感覺(jué)有點(diǎn)low啊,好多專科技校、藍(lán)翔電腦培訓(xùn)出來(lái)的孩子都搞這個(gè).嗯,這朋友倒是蠻心直口快的,只好無(wú)奈一笑,不以為意.后來(lái)一想,這也許就是當(dāng)前運(yùn)維從業(yè)人員面臨的一個(gè)尷尬境地,給人的職業(yè)形象就是呆板和猥瑣,要么是目光呆滯地蹲機(jī)房拆機(jī)器,要么是焦頭爛額的處理各類業(yè)務(wù)故障,價(jià)值點(diǎn)不易被外界看到和認(rèn)同.
當(dāng)今的互聯(lián)網(wǎng)行業(yè)發(fā)展可謂風(fēng)生水起,從傳統(tǒng)的ICP純內(nèi)容生產(chǎn)到移動(dòng)互聯(lián)O2O連接線上與線下,再到成為國(guó)家發(fā)展戰(zhàn)略的互聯(lián)網(wǎng)+深度擁抱各行各業(yè),整個(gè)互聯(lián)網(wǎng)浪潮下催生出來(lái)的眾多業(yè)務(wù)形態(tài)、無(wú)數(shù)產(chǎn)品和創(chuàng)新的技術(shù)都在影響和改變著這個(gè)世界.而支撐起這整個(gè)互聯(lián)網(wǎng)基礎(chǔ)系統(tǒng)穩(wěn)定運(yùn)轉(zhuǎn)的人是誰(shuí)?如當(dāng)前一款游戲產(chǎn)品PCU達(dá)百萬(wàn),一個(gè)web站點(diǎn)pv量上千萬(wàn),一個(gè)app的月活躍帳戶達(dá)數(shù)億,這些業(yè)務(wù)繁榮昌盛的背后有哪些工作要做?我掐指一算,大概涉及到數(shù)據(jù)中心、網(wǎng)絡(luò)、服務(wù)器等基礎(chǔ)架構(gòu)的規(guī)劃、建設(shè)、運(yùn)營(yíng)及服務(wù)管理,涉及業(yè)務(wù)架構(gòu)評(píng)估、部署方案優(yōu)化、運(yùn)行環(huán)境設(shè)計(jì)、容量與成本管理、可用性與連續(xù)性管理、故障恢復(fù)與維護(hù)等諸多方面,以上工作都需要運(yùn)維這個(gè)特殊的職業(yè)群體來(lái)承擔(dān).
運(yùn)維作為業(yè)務(wù)發(fā)展的后腰團(tuán)隊(duì),一直致力于如何更快更好更省地支撐線上業(yè)務(wù),既然是做業(yè)務(wù)支撐,得隨著業(yè)務(wù)的發(fā)展而發(fā)展,運(yùn)維整體水平也往往與業(yè)務(wù)發(fā)展?fàn)顩r和體量正相關(guān),如國(guó)內(nèi)BAT這些巨頭互聯(lián)網(wǎng)企業(yè),其運(yùn)維在標(biāo)準(zhǔn)化建設(shè)、規(guī)范化實(shí)施、資源規(guī)劃和運(yùn)維效率質(zhì)量等方面均已成體系,并基本能代表業(yè)界最NB水平.在一些中型互聯(lián)網(wǎng)企業(yè),運(yùn)維團(tuán)隊(duì)和支撐體系可能正處于建設(shè)和發(fā)展階段,業(yè)務(wù)發(fā)展穩(wěn)中有進(jìn),此時(shí)運(yùn)維側(cè)關(guān)注的是如何提升效率、保障質(zhì)量并控制成本以及自動(dòng)化建設(shè),當(dāng)然最關(guān)鍵的是運(yùn)維管理思路的轉(zhuǎn)變,工作界面切分、業(yè)務(wù)解耦、降低人員依賴度等等.在小微互聯(lián)網(wǎng)企業(yè)內(nèi)部可能問(wèn)題并沒(méi)有這么復(fù)雜,甚至DO都不需要分離.但本人認(rèn)為無(wú)論在哪種業(yè)務(wù)場(chǎng)景下,在如今互聯(lián)網(wǎng)行業(yè)如何猖獗、用戶如此海量的背景下,運(yùn)維的價(jià)值需要輸出到產(chǎn)業(yè)鏈的上游中去,創(chuàng)造更多的空間.
那么問(wèn)題來(lái)了,運(yùn)維往往是企業(yè)內(nèi)部的屌絲團(tuán)隊(duì)(不掙錢花錢又最多,起的比雞早睡的比雞晚,甚至顏值普遍偏低),如何輸出更多價(jià)值,以本人有限的經(jīng)驗(yàn)來(lái)看,得練內(nèi)功,即通過(guò)提升運(yùn)維整體水平來(lái)輸出更多價(jià)值,簡(jiǎn)單歸結(jié)為以下三方面
面對(duì)業(yè)務(wù)全面發(fā)展,用戶量膨脹,線上服務(wù)不斷增多,從運(yùn)維整體支撐架構(gòu)上,該如何轉(zhuǎn)變思路并擴(kuò)展支撐能力?本人以為下述幾點(diǎn)措施可重點(diǎn)考慮.
這塊主要考慮的是運(yùn)維人員組織結(jié)構(gòu)的問(wèn)題,當(dāng)前的互聯(lián)網(wǎng)運(yùn)維涉及的專業(yè)技術(shù)學(xué)科非常廣泛,從大的方向來(lái)講有兩類,一是基礎(chǔ)架構(gòu)運(yùn)維:這其中包括了IDC、網(wǎng)絡(luò)、服務(wù)器以及這幾塊縱向切分為規(guī)劃、建設(shè)、運(yùn)營(yíng)和ITSM.
這一類總結(jié)起來(lái)至少是三橫四縱,十二個(gè)專業(yè)領(lǐng)域,當(dāng)然如果是再深度細(xì)分,如IDC這一塊又涉及基建、電力能源、制冷、暖通等等更多技術(shù)領(lǐng)域,總之這一大類不少于少林七十二絕技.第二類是業(yè)務(wù)運(yùn)維,這一塊是貼近業(yè)務(wù)側(cè),涉及的內(nèi)容如下
業(yè)務(wù)運(yùn)維人員接觸的是OS之上的各種應(yīng)用系統(tǒng),需要運(yùn)維人員快速理解業(yè)務(wù)邏輯架構(gòu)、前后端部署架構(gòu)并深入業(yè)務(wù)邏輯細(xì)節(jié),偏向于開發(fā)層面,涉及到的基礎(chǔ)IT技能包括:系統(tǒng)架構(gòu)與原理、TCP/IP協(xié)議棧、dns/dhcp等各種網(wǎng)絡(luò)服務(wù)、lvs/apache/redis/zeromq等各種開源組件、puppet/fabric/ansible/salt等各種管理工具、數(shù)據(jù)庫(kù)、腳本編程、HA高可用、硬軟件性能評(píng)估等等太極108式.
世間可有萬(wàn)中無(wú)一的奇才既精通少林72絕技又習(xí)得武當(dāng)太極108式?曾經(jīng)我想說(shuō)我就是這種人,結(jié)果被一巴掌拍倒在地.但事實(shí)證明是有的,不是某個(gè)人而是團(tuán)隊(duì).如此多的細(xì)分工作需要分配到組織架構(gòu)的各個(gè)團(tuán)隊(duì)中去.當(dāng)業(yè)務(wù)不多,體量較小的時(shí)候可能幾個(gè)人就可以搞定,一人多職縱向支撐也不會(huì)有太大問(wèn)題,但業(yè)務(wù)劇增,體量巨大時(shí),對(duì)基礎(chǔ)架構(gòu)容量與健壯性、資源交付效率、維護(hù)與實(shí)施的質(zhì)量等各方面都有著更高的要求,具體體現(xiàn)在專業(yè)深度和中長(zhǎng)期規(guī)劃能力上.此時(shí)可梳理當(dāng)前運(yùn)維工作涉及的所有塊面按專業(yè)進(jìn)行橫向切分,定義各團(tuán)隊(duì)的工作界面,以高效的方式橫向支撐公司各業(yè)務(wù).典型的組織方式:首先整體上切分為基礎(chǔ)架構(gòu)團(tuán)隊(duì)和業(yè)務(wù)運(yùn)維團(tuán)隊(duì),基礎(chǔ)架構(gòu)團(tuán)隊(duì)負(fù)責(zé)資源的規(guī)劃與提供、硬件環(huán)境的管理維護(hù)工作,最終向上交付的是可用的OS.業(yè)務(wù)運(yùn)維團(tuán)隊(duì)負(fù)責(zé)OS之上的業(yè)務(wù)相關(guān)應(yīng)用運(yùn)行環(huán)境的設(shè)計(jì)、應(yīng)用部署結(jié)構(gòu)的優(yōu)化和實(shí)施、線上應(yīng)用的管理與維護(hù)等.
界面清晰職責(zé)明確是可執(zhí)行落地的前提,不要出現(xiàn)應(yīng)用維護(hù)人員還需要去裝機(jī)器、配置網(wǎng)絡(luò)路由器、做存儲(chǔ)分區(qū),搞機(jī)房的同事還需要去管理應(yīng)用進(jìn)程狀態(tài)、部署配置業(yè)務(wù)應(yīng)用等情況.基礎(chǔ)架構(gòu)團(tuán)隊(duì)再細(xì)分下去典型的又可分為IDC團(tuán)隊(duì)、網(wǎng)絡(luò)團(tuán)隊(duì)、SA團(tuán)隊(duì)、監(jiān)控與安全等,根據(jù)實(shí)際情況而定了;業(yè)務(wù)運(yùn)維團(tuán)隊(duì)內(nèi)部可按業(yè)務(wù)類型或上游研發(fā)團(tuán)隊(duì)來(lái)細(xì)分,具體可視人員規(guī)模業(yè)務(wù)體量技術(shù)類型等情況去定了.總之運(yùn)維工作界面的切分目的是為合理組織人員,優(yōu)化分配工作,明確職能和提升專業(yè)深度,粒度和維度視企業(yè)環(huán)境可靈活配置.
流程化是為了保證工作的質(zhì)量.定義工作界面后,各職能團(tuán)隊(duì)完成的是某個(gè)節(jié)點(diǎn),團(tuán)隊(duì)通過(guò)內(nèi)部流程來(lái)實(shí)施作業(yè)任務(wù),團(tuán)隊(duì)間通過(guò)外部流程有序串聯(lián),完成某個(gè)具體業(yè)務(wù)邏輯的工作.對(duì)于流程的整合本人認(rèn)為做到內(nèi)部閉環(huán)和外部閉環(huán)是關(guān)鍵,內(nèi)部閉環(huán)指某個(gè)職能團(tuán)隊(duì)內(nèi)部在實(shí)施具體任務(wù)過(guò)程中的閉環(huán),如IDC團(tuán)隊(duì)在服務(wù)器資源供應(yīng)中整個(gè)流程鏈條一般是:
單服務(wù)器采購(gòu)這一塊涉及到的東西又很多,供應(yīng)商管理、資源評(píng)估與規(guī)劃、成本管理等.生產(chǎn)這一塊可理解為把金屬物體變成對(duì)業(yè)務(wù)可用的OS資源,服務(wù)器從出廠到上架到灌OS再到軟環(huán)境的標(biāo)準(zhǔn)初始化等等,這一塊在海量業(yè)務(wù)需求下對(duì)產(chǎn)能、資源供應(yīng)效率的要求很高,傳統(tǒng)的手動(dòng)安裝方式當(dāng)然滿足不了,于是IDC的同學(xué)要考慮批量快速生產(chǎn)的方案如kickstart,本人接觸最高產(chǎn)能的部署系統(tǒng)是每小時(shí)部署5000臺(tái)物理服務(wù)器OS,當(dāng)然隨著虛擬化云技術(shù)的應(yīng)用,徹底改變了傳統(tǒng)的基礎(chǔ)架構(gòu)資源生產(chǎn)和配置方式.調(diào)配這一塊也是需要IDC同學(xué)去考慮的重點(diǎn),如何管理業(yè)務(wù)需求,如何分配服務(wù)器資源,如何管理信息,服務(wù)器資源的調(diào)度等,站在更高的層面來(lái)說(shuō)這一塊就是如何靈活調(diào)度資源來(lái)滿足業(yè)務(wù)需求,且能合理利用與控制成本,以下措施可以一試:
??? 維護(hù)這塊是基本工作,其中涉及的處理流程、技術(shù)細(xì)節(jié)與硬件設(shè)備本身關(guān)系很大,本人接觸到的dell/hp/ibm/Lenovo/華賽等各廠商的在用主流型號(hào)服務(wù)器達(dá)100多款,日常維護(hù)這塊的工作量很大,作為IDC的同學(xué)當(dāng)然也要從思路、平臺(tái)等方面去優(yōu)化,比如建立帶外網(wǎng)絡(luò)集中維護(hù)和管理、基于日志的自動(dòng)分析和報(bào)障、事件與問(wèn)題管理等等.資源回收與資源分配是同等重要的環(huán)節(jié),宗旨是能做到有需求時(shí)放、無(wú)需求時(shí)收,這塊要考慮的是如何對(duì)資源利用狀態(tài)的監(jiān)管,如何快速回收,彈性伸縮.以上只是大概說(shuō)了服務(wù)器資源管理這條鏈的內(nèi)部閉環(huán)流程.實(shí)際上在職能團(tuán)隊(duì)內(nèi)部,類似的業(yè)務(wù)支撐流程很多很多.這些流程內(nèi)部往往需要運(yùn)維人員去考慮管理思路、實(shí)施技術(shù)、綜合解決方案等多方面.外部閉環(huán)體現(xiàn)在多團(tuán)隊(duì)之間的工作協(xié)作上了,拿一個(gè)例子來(lái)說(shuō):某游戲產(chǎn)品需求在國(guó)內(nèi)搭建一個(gè)大區(qū),這個(gè)就需要運(yùn)維多個(gè)團(tuán)隊(duì)來(lái)協(xié)作了,簡(jiǎn)化的流程如下:
流程的整合,需要看每個(gè)企業(yè)內(nèi)部運(yùn)維的職能團(tuán)隊(duì)、工作界面劃分以及承載的業(yè)務(wù)邏輯,尤其對(duì)于全業(yè)務(wù)運(yùn)維的團(tuán)隊(duì),流程的制定很重要.一個(gè)好的流程,既要合理又要盡量簡(jiǎn)單,較大的運(yùn)維團(tuán)隊(duì)要明確的一點(diǎn)是:保障一切正常運(yùn)轉(zhuǎn)的是規(guī)范的流程,而不是個(gè)人.
老話題了,對(duì)于業(yè)務(wù)量稍微上來(lái)、網(wǎng)絡(luò)與服務(wù)器規(guī)模稍大一些的企業(yè),都已經(jīng)意識(shí)到這點(diǎn)的重要性.運(yùn)維不做自動(dòng)化,生活不會(huì)幸福.關(guān)鍵是怎么做,如何整體規(guī)劃并大方向布局,見(jiàn)過(guò)很多運(yùn)維自動(dòng)化的實(shí)施方案,涉及運(yùn)維工作中的各類場(chǎng)景.自動(dòng)化實(shí)現(xiàn)方面大概有三個(gè)層次:
自動(dòng)化的建設(shè)水平在行業(yè)內(nèi)差異化還是明顯的,如果處于運(yùn)維自動(dòng)化剛起步的階段,那么本人的建議是:從整體上規(guī)劃,基于ESB思想盡量讓平臺(tái)與業(yè)務(wù)邏輯解耦.
如上所示,我們先拋開基礎(chǔ)架構(gòu)側(cè)的自動(dòng)化不論,對(duì)于業(yè)務(wù)運(yùn)維而言,整個(gè)工作面無(wú)非就是對(duì)業(yè)務(wù)運(yùn)營(yíng)環(huán)境的各種操作、配置,已經(jīng)對(duì)業(yè)務(wù)應(yīng)用程序的管理,簡(jiǎn)單來(lái)說(shuō)就是OS層和應(yīng)用層,要做自動(dòng)化實(shí)施首先得有準(zhǔn)確對(duì)稱的數(shù)據(jù),然后需要一個(gè)統(tǒng)一的管控平臺(tái),能并發(fā)的控制和操作遠(yuǎn)程大量主機(jī),這解決了OS層面的操作問(wèn)題,但需要管理應(yīng)用層面的東西及需要與應(yīng)用的研發(fā)人員確認(rèn)相應(yīng)的接口,對(duì)于開源組件而言一般不會(huì)有什么問(wèn)題.因此如果是從零開始做自動(dòng)化,個(gè)人認(rèn)為CMDB、管控平臺(tái)、業(yè)務(wù)管理工具這三部分是地基.在此基礎(chǔ)之上,可以針對(duì)運(yùn)維各類場(chǎng)景和業(yè)務(wù)邏輯去做相應(yīng)的垂直功能系統(tǒng),再上一層,可以使用流程引擎之類的組件來(lái)實(shí)現(xiàn)業(yè)務(wù)運(yùn)維流程的縱向整合,最終實(shí)現(xiàn)運(yùn)維場(chǎng)景化一鍵式作業(yè).
運(yùn)維自動(dòng)化的宗旨是把運(yùn)維人員的專業(yè)經(jīng)驗(yàn)和技術(shù)知識(shí)轉(zhuǎn)化為工具,讓工具去做事情,讓人去享受生活.
運(yùn)維在工作切分和實(shí)施流程化之后,時(shí)常會(huì)出現(xiàn)溝通障礙、信息不同步不對(duì)稱、權(quán)責(zé)劃分不清的情況,導(dǎo)致的結(jié)果可能是釀成各種悲劇慘劇、相互推諉、甚至多年兄弟基情破裂,本人認(rèn)為這種情況的根源應(yīng)該是團(tuán)隊(duì)與團(tuán)隊(duì)之間沒(méi)有交付標(biāo)準(zhǔn),對(duì)應(yīng)的流程的上下游沒(méi)有入口規(guī)范和出口規(guī)范,這沒(méi)什么好說(shuō)的,解放方案就是針對(duì)業(yè)務(wù)流程中各個(gè)節(jié)點(diǎn)制定好交付標(biāo)準(zhǔn),這也是衡量團(tuán)隊(duì)工作質(zhì)量的重要指標(biāo).線上應(yīng)用出了狀況,排除外界因素外,定是內(nèi)部實(shí)施中某個(gè)環(huán)節(jié)沒(méi)有達(dá)標(biāo),標(biāo)準(zhǔn)可能是這樣的:
運(yùn)維涉及的工作紛繁復(fù)雜,沒(méi)有交付標(biāo)準(zhǔn)很難確保萬(wàn)無(wú)一失,各團(tuán)隊(duì)、各流程節(jié)點(diǎn)均按標(biāo)準(zhǔn)交付,實(shí)際出狀況的概率會(huì)降到最低,且團(tuán)隊(duì)之間的協(xié)助溝通也會(huì)順暢得多.
如前面所述,運(yùn)維團(tuán)隊(duì)往往處于整個(gè)業(yè)務(wù)發(fā)展的幕后環(huán)節(jié),在價(jià)值體現(xiàn)方面也較難讓臺(tái)前的觀眾們看到,但運(yùn)維團(tuán)隊(duì)自我意識(shí)要清醒,在整個(gè)業(yè)務(wù)發(fā)展中貢獻(xiàn)的價(jià)值是不可或缺的,且要不斷提升自身價(jià)值,本人以為下述幾方面對(duì)運(yùn)維團(tuán)隊(duì)價(jià)值提升有很大幫忙.
從運(yùn)維工作中的某個(gè)點(diǎn)來(lái)說(shuō),運(yùn)維所做的工作最終都映射到某個(gè)操作上去,如對(duì)硬件設(shè)備進(jìn)行的操作、對(duì)OS環(huán)境進(jìn)行的修改、對(duì)程序文件的各種配置與更新、對(duì)數(shù)據(jù)的管理操作、對(duì)系統(tǒng)平臺(tái)的各種維護(hù)等等.這種工作特性往往會(huì)讓很多運(yùn)維團(tuán)隊(duì)陷入埋頭苦干,重復(fù)勞動(dòng)、思維僵化的境地,尤其是在管理風(fēng)格較封閉的團(tuán)隊(duì)里,一切的流程和實(shí)施方案均已被定死,沒(méi)有全員參與感,下面的執(zhí)行團(tuán)隊(duì)根本不知道中心整體規(guī)劃是什么,整體目標(biāo)是什么,也不會(huì)去為團(tuán)隊(duì)整體的發(fā)展做考慮,只能機(jī)械的完成上級(jí)交待的操作任務(wù).
記得看過(guò)一部叫《雪國(guó)列車》的科幻電影,在一列號(hào)稱永動(dòng)機(jī)供能的高逼格列車上,某個(gè)小零件壞了且維修空間狹小,于是把一定尺寸的小孩抓過(guò)去當(dāng)成沒(méi)有生命的金屬工具使用,小孩被訓(xùn)練得僵化服從,并始終重復(fù)一個(gè)動(dòng)作在一堆機(jī)械中完成某個(gè)特定的操作,從而維持整輛列車的繼續(xù)前行.看后不禁毛骨悚然,我們運(yùn)維人員也該思考一下,當(dāng)前你是否也處于這種狀態(tài)?當(dāng)然運(yùn)維操作是基本工作職責(zé),但運(yùn)維團(tuán)隊(duì)該思考的是如何從這些操作任務(wù)中提取共性、去重、優(yōu)化操作流程從而自動(dòng)化去完成,大的平臺(tái)系統(tǒng)暫且不考慮,小的工作上的優(yōu)化無(wú)處不在.
比如在服務(wù)器資源初始化環(huán)節(jié),業(yè)務(wù)運(yùn)維針對(duì)提交過(guò)來(lái)的服務(wù)器進(jìn)行業(yè)務(wù)相關(guān)初始化配置工作,各團(tuán)隊(duì)運(yùn)維人員針對(duì)不同業(yè)務(wù)各自進(jìn)行這項(xiàng)操作,繁瑣費(fèi)時(shí),還不一定保證質(zhì)量,此時(shí)去梳理各業(yè)務(wù)初始化需求,發(fā)現(xiàn)絕大部分是共性的,將這些共性的東西提取出來(lái),再隨便做個(gè)初始化工具,將工具集成在OS部署環(huán)境中,這樣OS生成出來(lái)后就自動(dòng)完成各業(yè)務(wù)相關(guān)的初始化工作了,最終交付給業(yè)務(wù)團(tuán)隊(duì)的是標(biāo)準(zhǔn)的統(tǒng)一的OS環(huán)境,大家都省時(shí)省力且質(zhì)量還高.再舉一個(gè)例子,各業(yè)務(wù)需求CDN資源,且各自上傳到各自對(duì)應(yīng)的site,線下的域名站點(diǎn)信息、權(quán)限目錄信息等各業(yè)務(wù)團(tuán)隊(duì)分別管理,在信息溝通和管理上較費(fèi)事,如做一個(gè)優(yōu)化,將前端做成統(tǒng)一平臺(tái),后端讓系統(tǒng)去自動(dòng)完成差異化分發(fā),再加上覆蓋率、下載率、帶寬等數(shù)據(jù)的統(tǒng)計(jì)分析等等則是較完善的一個(gè)CDN管理平臺(tái)了.類似的可優(yōu)化方面太多太多,運(yùn)維人員需要去思考如何優(yōu)化,而不僅僅是完成操作任務(wù),當(dāng)發(fā)現(xiàn)一切細(xì)節(jié)都賞心悅目的時(shí)候,團(tuán)隊(duì)的價(jià)值自然就提升了.
規(guī)劃工作講究的是長(zhǎng)遠(yuǎn)計(jì)劃,早做打算未雨綢繆.在我們的運(yùn)維工作中,業(yè)務(wù)需求是不斷變化的,滿足有計(jì)劃性的通用型的需求遠(yuǎn)比滿足零散的個(gè)性化的需求要容易得多,運(yùn)維規(guī)劃能力體現(xiàn)在以下兩個(gè)方面:
這些導(dǎo)致你工作不爽的問(wèn)題,運(yùn)維自己不去考慮沒(méi)人會(huì)替你考慮,抱怨是沒(méi)有用的,要從多次實(shí)施的經(jīng)驗(yàn)中去總結(jié)并合理規(guī)劃你的工作.
精細(xì)化這塊要做起來(lái),得有度量手段和數(shù)據(jù)的采集,運(yùn)維的工作實(shí)現(xiàn)線上化后數(shù)據(jù)的獲取是便捷的,在此基礎(chǔ)上再做容量、成本、業(yè)務(wù)可用性、工作量、工作質(zhì)量、達(dá)標(biāo)率等各項(xiàng)指標(biāo)方面的分析也較為容易,依據(jù)這些數(shù)據(jù)來(lái)量化工作、優(yōu)化流程和實(shí)施細(xì)節(jié),精細(xì)化的關(guān)鍵是一切基于數(shù)據(jù).有些運(yùn)維團(tuán)隊(duì)可能覺(jué)得我支撐的業(yè)務(wù)量不大,人員也不多,沒(méi)有精力去做精細(xì)化方面的工作,粗放型的模式實(shí)施下來(lái)也并沒(méi)有太大問(wèn)題,如應(yīng)用服務(wù)器配置經(jīng)常是根據(jù)運(yùn)維經(jīng)驗(yàn)或類對(duì)其他應(yīng)用直接拍板、系統(tǒng)承載能力和用戶量預(yù)估沒(méi)有實(shí)際數(shù)據(jù)支撐、應(yīng)用部署結(jié)構(gòu)沒(méi)有標(biāo)準(zhǔn)模型、運(yùn)維工作評(píng)估沒(méi)法量化等等.個(gè)人理解,精細(xì)化的思路是恰到好處、精確匹配.
如在進(jìn)行業(yè)務(wù)資源調(diào)配時(shí),考慮業(yè)務(wù)邏輯模型和各模塊性能數(shù)據(jù),差異化的資源分配策略能做到恰到好處的資源利用,而不是一把抓使用同一規(guī)格的資源配置的粗放方式.
再比如對(duì)服務(wù)器資源利用率的控制可以非常精細(xì)化,某業(yè)務(wù)部署了很多服務(wù)器,我們從成本管理的角度去看,使用的這些服務(wù)器資源與其業(yè)務(wù)量、用戶量匹配嗎?實(shí)際的負(fù)載達(dá)到多少了?有多少比例的機(jī)器是長(zhǎng)期處于低功耗狀態(tài)?通過(guò)什怎樣的部署優(yōu)化措施可以減少成本?但我們把這些數(shù)據(jù)監(jiān)控起來(lái)后,經(jīng)常發(fā)現(xiàn)這樣的情況:某業(yè)務(wù)共部署了1000臺(tái)機(jī)器,有50的機(jī)器長(zhǎng)期處于低負(fù)載狀態(tài)(比如cpu峰值長(zhǎng)期低于5%、內(nèi)存峰值長(zhǎng)期低于20%,io峰值長(zhǎng)期低于10%等等),但業(yè)務(wù)運(yùn)維還在擴(kuò)展機(jī)器資源,說(shuō)性能達(dá)不到要求,為什么?再深入分析發(fā)現(xiàn)30%用于接入模塊的機(jī)器是高磁盤IO,低cpu配置,40%用于中間邏輯模塊的機(jī)器是高cpu、低內(nèi)存、高IO配置,30%用于存儲(chǔ)模塊的機(jī)器是低磁盤IO、低內(nèi)存、低cpu的配置,一句話部署結(jié)構(gòu)未精細(xì)化、資源配置沒(méi)有數(shù)據(jù)支撐.當(dāng)然你也可以粗放的每個(gè)模塊全部配置高CPU、高內(nèi)存、高IO的機(jī)器資源,也不會(huì)對(duì)業(yè)務(wù)運(yùn)行有什么影響,但這樣真的好嗎?
以上只是運(yùn)維工作中的很小的可以精細(xì)化的例子,類似的非常多,從宏觀角度看如運(yùn)維人力的分配、時(shí)間的分配、各類標(biāo)準(zhǔn)模型、各種實(shí)施流程的完善等等都值得運(yùn)維去深挖.
運(yùn)維所支撐的上層應(yīng)用是多種形態(tài)的個(gè)性化系統(tǒng),如游戲業(yè)務(wù)、web業(yè)務(wù)、音視頻業(yè)務(wù)、搜索業(yè)務(wù)等等,邏輯架構(gòu)、技術(shù)特征、部署方案、運(yùn)行環(huán)境需求等不盡相同.涉及的運(yùn)維場(chǎng)景同樣是千變?nèi)f化、需求各異,如發(fā)布、變更、遷移、合并、備份、故障處理等等各方面.在業(yè)務(wù)量少的情況下,通過(guò)case by case 方式運(yùn)維可以很好的支撐起幾塊產(chǎn)品的維護(hù)工作,針對(duì)每款產(chǎn)品組建團(tuán)隊(duì)搞一套流程并配備相應(yīng)的工具即可,但隨著業(yè)務(wù)的發(fā)展,想象下幾百款到上千上萬(wàn)款線上產(chǎn)品同時(shí)運(yùn)作的情形,case-by-case是下下之策,因?yàn)橘Y源是有限的,人員也不可能無(wú)限增長(zhǎng),這個(gè)時(shí)候你可能要去尋找統(tǒng)一解決方案,目標(biāo)是能屏蔽前端多款業(yè)務(wù)的差異性,建立統(tǒng)一的流程和平臺(tái)來(lái)完成相同場(chǎng)景的運(yùn)維任務(wù).這個(gè)平臺(tái)是遵循ESB設(shè)計(jì)思想的,提取共性解耦前端業(yè)務(wù)邏輯,實(shí)現(xiàn)支撐一百款業(yè)務(wù)跟支撐一款業(yè)務(wù)付出幾乎同等的運(yùn)維成本.一個(gè)簡(jiǎn)單的抽象如下:
支撐業(yè)務(wù)量少時(shí),以上模式?jīng)]有太大問(wèn)題,為各業(yè)務(wù)做定制化保姆式運(yùn)維響應(yīng).當(dāng)業(yè)務(wù)量增長(zhǎng)到一定程度,明顯人員和組織架構(gòu)不可能成正比無(wú)限增長(zhǎng),此時(shí)可能需要如下這種橫向支撐的模式
當(dāng)然做到這個(gè)程度,有很多前置工作要做,如標(biāo)準(zhǔn)化的建設(shè)、自動(dòng)化的建設(shè)與持續(xù)整合、運(yùn)維工作的高度抽象與持續(xù)集成、甚至可能需要從研發(fā)、測(cè)試這些上游流程上去做改變.這是個(gè)從小工作坊到工業(yè)化流水生產(chǎn)線的過(guò)程,革命性的轉(zhuǎn)變非一日之功.
運(yùn)維人員在專業(yè)技術(shù)上的積累這個(gè)是基本功了,凡是IT領(lǐng)域的東西都該去多了解一些,主要是技術(shù)應(yīng)用方法了,對(duì)于解決常規(guī)的業(yè)務(wù)需求可以拿來(lái)即用,對(duì)于需要深入理解的方面還是要系統(tǒng)性的學(xué)習(xí),建議是去搞清楚整個(gè)來(lái)龍去脈、找到根源和理論基礎(chǔ),這塊涉及的東西太廣泛,就不多說(shuō),除此之外的以下方面本人覺(jué)得往往對(duì)個(gè)人的成長(zhǎng)起到更大的作用.
稍微有些職場(chǎng)經(jīng)驗(yàn)的人都知道,很多時(shí)候問(wèn)題的關(guān)鍵不在于資源、路徑或者是技術(shù)問(wèn)題,而在于人的問(wèn)題,你所在的部門領(lǐng)導(dǎo)、你的leader、流程上下游相關(guān)的人、業(yè)務(wù)相關(guān)接口人等等,這些在你處理某個(gè)事務(wù)時(shí)有交集的所有人都可能影響到整個(gè)事務(wù)的成敗.既然是人的問(wèn)題,就需要通過(guò)溝通來(lái)解決,在運(yùn)維工作中,我們涉及的業(yè)務(wù)接口人、流程相關(guān)方、細(xì)節(jié)信息確認(rèn)方等經(jīng)常是錯(cuò)綜復(fù)雜,有時(shí)甚至斡旋于多個(gè)團(tuán)隊(duì)之間太極打的風(fēng)生水起,還是搞不清楚這事誰(shuí)負(fù)責(zé),到底該找誰(shuí)解決.關(guān)于溝通方面體會(huì)最深的有以下幾點(diǎn):
A:那誰(shuí)一會(huì)幫忙把DB重啟下
B:哪個(gè)DB?
A:xxx業(yè)務(wù)的一區(qū)的DB
B:一區(qū)DB機(jī)器有3個(gè)實(shí)例,是哪個(gè)?
A:3310實(shí)例啊
B:現(xiàn)在重啟嗎,還是等你通知?
A:等我通知...
這種溝通可簡(jiǎn)化為:
A:等我這邊把前端停掉,你幫忙將xxx業(yè)務(wù)一區(qū)DB機(jī)器(192.168.1.1)的3310 實(shí)例重啟下,等我通知再操作!
B:好的.
簡(jiǎn)化,表達(dá)清楚,簡(jiǎn)單的事情一次性說(shuō)清,不留疑問(wèn),配合你的人一看就明白要做什么.
一個(gè)好的運(yùn)維一定是擅長(zhǎng)跟各種技術(shù)和業(yè)務(wù)團(tuán)隊(duì)溝通的好手.
運(yùn)維的工作往往很雜、很細(xì)、很亂,可能你每天都在處理重復(fù)的需求、做著重復(fù)的事情,埋頭在一堆單調(diào)重復(fù)的瑣事之中無(wú)法自拔,基本沒(méi)有時(shí)間去學(xué)習(xí)新的知識(shí)和技能,我相信每個(gè)運(yùn)維都遇到這些情況,每天加班加點(diǎn)、且沒(méi)有成就感,也輸出不了什么價(jià)值.如果到了這種狀態(tài),我覺(jué)得往往是優(yōu)化工作做的不夠.優(yōu)化,可大可小,從自身出發(fā),可先尋找個(gè)人工作中的優(yōu)化點(diǎn),一點(diǎn)一滴去做,什么是優(yōu)化點(diǎn),簡(jiǎn)單來(lái)說(shuō)工作中你的痛點(diǎn)就是優(yōu)化點(diǎn)!很多時(shí)候我們需要放下手上的瑣事多做總結(jié)和思考:
小到某個(gè)特定的執(zhí)行細(xì)節(jié)、大到整個(gè)流程體系,甚至要推動(dòng)多個(gè)團(tuán)隊(duì)來(lái)配合,把這些讓你感覺(jué)費(fèi)力的不爽的地方變得通暢,省時(shí)省力且質(zhì)量還能提高,這些應(yīng)該是最能體現(xiàn)運(yùn)維能力和價(jià)值的地方.
如果運(yùn)維工作中某個(gè)環(huán)節(jié)讓你很不爽,想想問(wèn)題在哪里,有何可行的優(yōu)化方案,然后去推動(dòng)和實(shí)施,抱怨解決不了問(wèn)題,持續(xù)優(yōu)化是很重要的意識(shí),尤其對(duì)于運(yùn)維從業(yè)者而言.當(dāng)然有人可能會(huì)說(shuō)這個(gè)問(wèn)題領(lǐng)導(dǎo)或其他團(tuán)隊(duì)不重視,推不動(dòng),無(wú)法優(yōu)化,這種情況第一可能是你沒(méi)有讓別人看到優(yōu)化方案的閃光點(diǎn)和預(yù)期收益,只對(duì)你方有利卻把麻煩拋給了他人,沒(méi)有制造雙贏或多贏的局面,可以再深入下方案,相信對(duì)大家都有利的事情都會(huì)愿意去做.第二可能是管理上的問(wèn)題了,公司制度使然,這種情況應(yīng)該是極少數(shù),就不去挑戰(zhàn)了,除非你能把老板優(yōu)化掉.
沒(méi)有人會(huì)一直做運(yùn)維執(zhí)行和操作,到最后其實(shí)更多的是做運(yùn)維規(guī)劃,尤其是在做海量業(yè)務(wù)支撐時(shí),前期的規(guī)劃往往在很大程度上決定了后期的建設(shè)和維護(hù)成本.
大量的運(yùn)維實(shí)施經(jīng)驗(yàn)和積累后,對(duì)于運(yùn)維中的事務(wù),多從規(guī)劃角度去考慮,往往能做得更好.
這塊就不多說(shuō)了,運(yùn)維是一門實(shí)踐性很強(qiáng)的科學(xué),專業(yè)眾多,保持學(xué)習(xí)的心態(tài)很重要,分享亦是一種美德,更是個(gè)人積累和成長(zhǎng)的重要方式,每個(gè)人都有自己獨(dú)特的經(jīng)驗(yàn)和感悟可以分享出去,共同成長(zhǎng).
說(shuō)了這么多,不知能否改變我那位朋友覺(jué)得運(yùn)維很low的印象.總而言之對(duì)于運(yùn)維價(jià)值的體現(xiàn)和提升有更多的事情要做,本文只是杯水車薪.最近看《權(quán)利的游戲》,整個(gè)影片構(gòu)建了一個(gè)宏大且殘忍的史詩(shī)級(jí)魔幻世界,里面有個(gè)置身七國(guó)紛爭(zhēng)之外的特殊群體——守夜人,一個(gè)人只要是失去生活目標(biāo)了、墮落了、不被社會(huì)認(rèn)同了、或者感覺(jué)活膩了,你還有一個(gè)地方可以去,那就是加入守夜人團(tuán)隊(duì),從此將擺脫一切身份,洗去一切罪孽,斷掉一切念想,活在另一個(gè)世界為七國(guó)守衛(wèi)絕境長(zhǎng)城.
守夜人有非常霸氣的誓詞,以下獻(xiàn)給各位運(yùn)維同仁:
Night gathers, and now my watch begins. It shall not end until my death. I shall take no wife, hold no lands, father no children. I shall wear no crowns and win no glory. I shall live and die at my post. I am the sword in the darkness. I am the watcher on the walls. I am the fire that burns against the cold, the light that brings the dawn, the horn that wakes the sleepers, the shield that guards the realms of men. I pledge my life and honor to the Night’s Watch, for this night and all the nights to come.【長(zhǎng)夜將至,我從今開始守望,至死方休.我將不娶妻、不封地、不生子.我將不戴寶冠,不爭(zhēng)榮寵.我將盡忠職守,生死於斯.我是黑暗中的利劍,長(zhǎng)城上的守衛(wèi).我是抵御寒冷的烈焰,破曉時(shí)分的光線,喚醒眠者的號(hào)角,守護(hù)王國(guó)的堅(jiān)盾.我將生命與榮耀獻(xiàn)給守夜人,今夜如此,夜夜皆然】.
–作者簡(jiǎn)介:張延禮,實(shí)踐運(yùn)維專家,現(xiàn)蝸牛游戲高級(jí)運(yùn)維經(jīng)理,曾就職于騰訊多年,熟悉基礎(chǔ)架構(gòu)運(yùn)維及游戲業(yè)務(wù)運(yùn)維,在運(yùn)維技術(shù)實(shí)施、流程及標(biāo)準(zhǔn)化體系建設(shè)、運(yùn)維自動(dòng)化架構(gòu)設(shè)計(jì)及實(shí)現(xiàn),運(yùn)維支撐體系規(guī)劃和執(zhí)行團(tuán)隊(duì)管理等方面具有豐富經(jīng)驗(yàn).
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.snjht.com/jiaocheng/4576.html