《專家觀察 | 彭華盛:“廣發銀行運維一體化之平臺一體化”》要點:
本文介紹了專家觀察 | 彭華盛:“廣發銀行運維一體化之平臺一體化”,希望對您有用。如果有疑問,可以聯系我們。
由工業和信息化部指導,中國信息通信研究院主辦,業界知名組織云計算開源產業聯盟(OSCAR)承辦的2017全球云計算開源大會于4月19日-20日在北京國家會議中心順利召開.本文為本屆大會嘉賓的大會演講內容分享,敬請瀏覽.
嘉賓介紹:彭華盛
公司職務:廣發銀行高級技術經理
個人簡介:廣發銀行總行數據中心運維自動化團隊、應用交易渠道團隊運維負責人
大會演講速記
大家好!前面幾個大佬都以產品角度來講運維,我今天以干貨的方式跟大家分享一下我們在運維方面的經驗.首先做一個自我介紹,我是廣發銀行運營中心的彭華盛,我現在主要是交易渠道的負責,另外我也負責策劃.我今天給大家帶來一個議題是平臺一體化.
標題里面有兩大塊,前面是標題一體化,后面是平臺一體化,我們的運維一體化是區域中心的運維里面的運營體系,運維一體化主要分三塊,一個是人員組織的一體化,流程一體化,后面是平臺一體化,平臺一體化偏向于工具一體化,我今天給大家分享的是平臺一體化.
平臺一體化里面可以會用三個方面跟大家分享,第一個是團隊轉型的需求,另外一個我們團隊在做轉型的時候的解決思路,第三個是我們在轉型的一些方案里面的原則.我們重點會來講原則.
我們轉型的壓力其實和大家在座的一些運維團隊碰到的比較像,我們現在團隊里面的運維打一個標簽“救火”我們都會有,所以我們歸納一下運維里面目前的四個特點.
一個是被動救火式的,我們的團隊里面大部分都是被動的保障業務系統,所以我們日常的工作會被擱置.我們也是一個以問題驅動的方式去做運維的,因為我們的運維口,我們往往可能對一些應用的可用性、可靠性和其他的生產問題來驅動.第三個,我們的日常運維主要還是以運維操作性的方式占主要的工作量.第四個,我們是以經驗式的運維,尤其是有一些比較資深的老員工,他離職在短期內給我們的運維帶來一定的沖擊.
針對這四個特點我們提出了四個轉型:一個是我們從被動的救火式的運維方式向主動的機器化運維的方式.第二個是從問題驅動向價值驅動,價值驅動我們現在也在做大數據,做一些業務方面的驅動.第三個是操作運維,我們現在也在建一個自主化的開發平臺,通過這個開發平臺快速落地一些工具,來降低我們的操作系統的運維.第四個是我們希望靠人的經驗式的運維向智能化運維去驅動.
但是大家也知道我們團隊人員很難去擴張,所以我們首先要解決我們的生產力,解決完以后我們才能去做我們的轉型,所以解決生產力最主要的手段是自動化.在自動化方面,我們也碰到三個問題.
一個是說怎么更好,我們的運維體系也算是比較完整了,但是我們的工具往往是以商業工具,每個商業工具的功能都可能重疊度很多,這里面也是以煙囪式的建設,很難實現信息的共享,更不要說是一加一大于二,有很多時候一加一小于一的可能性都有.
第二個是如何更快,我們的工具也是拿來主義比較多,自主研發比較少.像我們這種傳統的銀行金融企業,我們要一個產品需要要走一些流程,把流程走完以后一年半載以后了,等我們拿到手以后可能不是最緊迫的運維工具.
第三個我們如何做得更重要,原來我一開始認為我們銀行是體制內的,后來慢慢發現我們團隊很有危機感,現在我們也在做一些團隊的合并,所以我們的壓力是比較大的.所以我們在想我們怎么解決我們的職業危機的同時又創造更大的價值.我們就提出了我們接下來要做一個一體化,我們為什么要提一體化?是因為我們希望我們的團隊,因為我們有比較多的專業團隊,包括我們運動的,包括基礎設施的,網絡的,各個團隊大家是能夠達成共識,我們通過提出一個概念,把這個概念固化下來,所以我們提出了一體化.
一體化的規劃我當時也是有幾個觸動,里面提到組織、流程、架構三位一體,這個和我們的區域中心的運維一體化的體系是比較吻合的.另外是剛才黨總提到的藍鯨,還有包括云途騰科技產品平臺的一體化,給我們很大的指導.我概括講我們的一體化平臺有點像山寨版的藍鯨,但是這個山寨版更符合我們廣發的特點.第三個Google SRE對我們影響很大,我們怎么做運維開發,怎么讓我們的運維有更高逼格,這是我們在我們的運維建設過程當中的指導原則.
我們的運維一體化,這是我們的架構,這個架構有幾個一體化,這邊是我們原先組織的一體化,這下面是我們的工具一體化,整個加起來是運維一體化,流程里面也是一體化,我們的一體化運維平臺也是工具的一體化,我們整個體系都是以這個思路來建設的.
在我們的平臺一體化里面,這張圖我是引用了李總的一個概念,我把它做了一個修改,我們的一體化里面,我們從下面看,下面是6個平臺+1個門戶,我把這個理念已經傳播到我們數據中心的平臺工具的團隊里面,基本上我們現在能夠把利益合在一起建設,避免重復的建設.一個從底層的云平臺,像我們身上的骨一樣,中間是監管,我們的云平臺是我們的管,流程平臺,操作平臺,再往上分析平臺,有別于業務大數據,我們和他們是平行的,業務大數據的精力有限,主要是做業務,我們的分析平臺主要是做運維分析.
我們整體兩邊還要建四個原則,一個是說我們要自主化,我們要做一個運維開發平臺,我們要做工具化,我們要提倡工具的文化,另外一套服務集成,采用一個總線固定在里面,實現工具之間的互聯互通,再往上就是可視化.
這是我們前面那張圖的細化,這個就不多介紹了,后面大家有興趣有可以看一看.
我現在主要講一下平臺里的主要原則,一個是自主化,就像藍鯨也有一個研發平臺,但是它的開發平臺,我感覺我們人的能力用他們的平臺還是有限的,因為他要求你有比較強的開發經驗,要打包再上傳上去.
我們也去調研了一下開發中心那邊的常規軟件公司,現在很多公司有很多人不寫代碼,就在一個ID上面拖拉拽,我們也基于拖拉拽縮所見即所得的平臺,我們的團隊中有工具建設的工具化,還有一個服務化,我們已經建了一段時間很難把這個工具廢棄掉,我們要整合現有的工具,來引入新的工具,實現信息的互聯互通,這是我們服務化的一塊.
在可視化方面我們也做很多投入,包括如何設計得好看,整體怎么更好地整合,所以我們也花了比較多的心思.后面的原則我會放我們現在做的情況的一些圖,也是為了表達一些誠意.我們有自主化的開發平臺,這是我們的腳本平臺,類似于這是一個腳本工廠,腳本可以再利用,我們現在也在用.
我們的管理人員是可以在這個工具上直接去做一些開發,上面這些是可以做測試的,可以做工程的腳本工具.管理員是不需要去考慮我在哪里去測試,什么測試服務器去測試,通過什么去調用,這是我們以前很多開發人員在開發的時候遇到的難點,太困難了就不愿意開發了,我們希望讓這種難度盡量降低.
我們那邊還有連腳本不愿意寫的那種,我們就想了一個辦法,像這些腳本就是一個原子,我們可以把它拖拉拽動拉在一起,這三個我們已經上線了.這是可視化的拖拉拽,一個是梳理流,還有一個頁面的可視化拖拉拽的觸面,還有一個界面流.這個是可視化前端的頁面H5,因為我們是基于H5的方案去做的,我們現在在上面做的東西可以在頁面里面去展示.
在下面是業務流,你可能有一個工具,有一個按鈕,后期是怎么調用的,黃色是調用服務接口的,這邊可以寫一些代碼或者調一些腳本,可視化可以調腳本,也可以調監控上面的數據,也可以直接連我在遠端的數據庫,這是我們的開發平臺.
外一個,我們希望我們的架構是自主的,我們的運維也是在我們廣發行第一次用到了分布式的系統,我們的業務系統比較謹慎,我們的運維里面,一方面我們有這種需求,我們原來監控是以每一個應用+一個數據庫,但是我們發現我們的監控數據,當我們的OS大概到3000,我一個表很難保存一個月,我們需要這么多,所以我們又搭了一套類似的數據庫,這個數據庫是用的阿里的軟件,下面是17個數據庫,實現了分離,現在跑還是整體性能還不錯.
后面我們這套架構也是推動到我們的mycall流通平臺在用這個架構.
這是我們現在在工具層面的技術站.
還有我們在建設工具化的過程當中,我們把工具分為兩大塊,一塊是重型工具,一塊是輕型工具,重型工具包括自動化部署、日志系統,我們往往是以成熟產品為主.但是還有很多工具,應用數據維護,包括腳本,包括運營活動的時候要快速給業務報表展示,我們是走的綜合人員能力投入產出比的因素,我們是逐步去做自主開發,后面會有一個例子給大家看一看.
我們的重型工具是集中監控,我們的集中監控基本上覆蓋了總行從基礎設施到系統網絡再到應用可用性安全,還有分行的情況我們都已經覆蓋到了.
中間的工具我們也是比較多,我沒有讓一個工具實現所有的功能,我們只是說讓這些工具把他的事件能夠往上拋,跑到我們的平臺上讓它整合,再到上的平臺能力,再往上是智能學習的監控.我們的監控主要原則也是不漏報、不誤報的要求.
我舉個例子,這是我們的集中監控的例子,我們可以把多個系統做整合,這是多種形式的展示,這是Web端,這是大屏,現在整大片有三個左右,我們的雙11運維活動都用這個.
這是我們把指標做一個平臺,比如像雙11的時候,我們的電子支付模塊有30臺服務器,我們可以放在上面,能告訴他到底是哪一臺出問題了,當出問題的時候,我們把這一臺停掉或者應用方案.
這個方案我們在很多活動推廣的時候,這個產品經常在用.我們也把監控下放到網點,原來監控在總行的服務器,我們在分行里面把分行的終端也都收上來.包括我們也把一些監控數據上收,借鑒360安全評分系統.這是分行數據收集的利用,這是我們對CMDB的擴展,我們把它擴展到應用題,我們把應用的關系圖也拖到里面.
這是事件豐富,比如這個告訴我銀聯要交易超過多少筆,我們就把CMDB的數據評價,這是波動情況,這是CPU內存,包括最近半小時的事件,我們都整合在事件豐富里面,這樣我們的管理員在處理故障的時候可以更高效.
工具化,輕量型的工具,我們借鑒工廠,我們鼓勵大家用這個工具,每個人做一個工具發布在這里,大家可以能去看.
小工具,我舉一個例子,我們三把斧頭當中的服務啟停,我們這些同學去做也做得很好,現在做的版本1,實現批量或者單個做啟停,啟停當中模擬的CMDB的界面,或者是保留現場,都保留在這里面.
我們還支持一些日志、數據庫進程的檢查,其實把我們比較好的同事應急的處理方法整合在一個界面里.這種是屬于我們認為是小型的工具,這個是我們的服務化的思路,我們下面每一個工具都要向上拋接口,通過一個服務器層,你在界面可以看到我這個接口上面的一些測試,我在開發過程當中也可以通過這個接口去選.
這是可視化,我們也會分專業視圖、管理視圖、業務視圖,這些都是我們做出來的界面,這是大屏,這是一個實時動態的圖.
這個是我們的產品的,這兩個是我們做的.這個是我們統一的門戶,我們統一的門戶把所有工具放在這里面,我們讓我們的控制臺把待辦法放在這里面.有些比較經常用的像監控就嵌入里面,像比較小的工具,我們就用鏈接的方式.
未來我們一方面是做好自動化,來解決我們的一些痛點.還有我們要結合大數據去放眼智能.我本來改了一稿,里面還有一些東西,這不是最新的一稿.謝謝大家!
文章來自微信公眾號:云計算開源產業聯盟
轉載請注明本頁網址:
http://www.snjht.com/jiaocheng/4209.html