《運維DBA的4大紀(jì)律9項注意》要點:
本文介紹了運維DBA的4大紀(jì)律9項注意,希望對您有用。如果有疑問,可以聯(lián)系我們。
朋友們調(diào)侃說,運維是個把腦袋別在褲腰帶上的活,更有人說,運維是個把腦袋別在他人褲腰帶上的活,苦勞沒人認(rèn),有鍋就有得背!
測試的同學(xué)說,“吃瓜群眾很難感知運維背后的付出,倒是出了事情更能體現(xiàn)我們的專業(yè)性.”小樣兒,你這是還沒有掉坑里過.
所以,最好就是減少鍋的出現(xiàn).
但是,鍋來了,大家就得背,甭管你是運維、產(chǎn)品、測試還是開發(fā),總得有個人出來走一走,對吧?
今天我們就來談?wù)勥\維DBA怎樣少背鍋.
運維DBA的形勢是很惡劣,但再惡劣也比不過當(dāng)年紅軍過草地.紅軍當(dāng)年靠三大紀(jì)律八項注意度過了難關(guān),若運維DBA認(rèn)真執(zhí)行,也能度過背鍋難關(guān).
運維DBA的四大紀(jì)律:
一、一切行動聽指揮
甭管你是團隊,還是團伙,要求都是一樣的,一切行動聽指揮!聽誰的指揮?聽運維經(jīng)理、運維總監(jiān)、CTO、CEO的指揮.
當(dāng)年墨子當(dāng)巨子的時候,手下180人,訓(xùn)練有素,同心同德,“赴火蹈刃,死不還踵”.這樣的團隊來搞運維,就具備了基本要求.
運維團隊里,最忌諱的是具有三腳貓功夫、蔑視前輩經(jīng)驗、心浮氣躁的人,遇到這種人Team Leader要及時校正甚至剔除,否則這就是你背鍋的最大來源.我被坑得比較慘的幾次,都是因為團隊里有這樣的人,想動手的時候不夠堅決,最后禍起蕭墻,只能弓著腰給客戶和領(lǐng)導(dǎo)死命的批評.這叫什么,一顆老鼠屎壞了一鍋湯.
所以,選擇運維成員時,要選那種踏實、機敏、上進(jìn)、溝通能力強的年輕人,用心培養(yǎng),往往事半功倍.
二、兩條紅線不能犯
所謂紅線,就是天條.第一個是按指揮再行動,其實是活的,可能是要請示和匯報的.這第二條是死的,就像高壓線一樣,碰到就完蛋了.
所有變更要做到:凡變更必有方案,凡方案必經(jīng)過評審方可執(zhí)行,凡執(zhí)行必嚴(yán)格遵循方案,重大變更需要有人核實.
這一條其實是為了規(guī)避誤操作,誤操作就是人為故障.人為故障在所有故障中的占比一直是很高的.
所有影響到業(yè)務(wù)的故障,不管是硬件故障、軟件故障還是人為故障,必須第一時間通知到部門經(jīng)理.
這一條是為了規(guī)避,技術(shù)人愛鉆牛角尖,看見故障鉆進(jìn)去就出不來,貽誤戰(zhàn)機,把快速恢復(fù)業(yè)務(wù)的大好時機給浪費了.
三、假日前容量規(guī)劃
記得某一年有一次團隊Outing,集合時某DBA睡眼惺忪地說半夜3點被告警搞起來了.這還不算,他在玩密室逃脫的時候,又接到機房告警電話,某業(yè)務(wù)表空間使用率超過85%嚴(yán)重告警了.是不是亮瞎了?
要想輕輕松松過節(jié)日,或者出去玩,除了做好備份之外,最重要的是做好容量規(guī)劃.最基本的表空間、文件系統(tǒng)空間、歷史告警等等基本情況橫掃一遍,起碼要能安全等到你休假回來.
對于一些特別的電商系統(tǒng),節(jié)假日可能正是高峰期,那就不僅僅是空間這點事了,還要做好性能預(yù)測和解決方案預(yù)案.
四、備份恢復(fù)年年做
備份要做,恢復(fù)更要做.如果你是管理者,千萬必要以為你的DBA一定會幫你做了.
不驚訝,真實案例的脫敏數(shù)據(jù):
如果是企業(yè)缺少相應(yīng)備份設(shè)備或軟件導(dǎo)致的,DBA有義務(wù)督促領(lǐng)導(dǎo)購置恢復(fù)演練所需的軟硬件設(shè)備.因為一旦出現(xiàn)意外,DBA的直接領(lǐng)導(dǎo)往往也擔(dān)不了這個責(zé)任,畢竟數(shù)據(jù)都保護不了,用戶還怎么相信你這個企業(yè),不論你是央企還是國企.
運維DBA的九項注意:
三大紀(jì)律是規(guī)矩-Rules,八項注意是指導(dǎo)原則-Guidance.
做運維的人,不能總說這個我們沒想到,哎呀,沒想到這也不行.這是爬雪山,過草地,不注意就陷進(jìn)去了,哪里會留時間給你瞎BB?
1、對生產(chǎn)環(huán)境心懷敬畏
你也許沒聽過“一個tnsping干翻6臺P595”,你也許沒聽過“一個cp命令讓營業(yè)系統(tǒng)停止使用30分鐘”,你也許沒聽過“建一個索引讓所有核保業(yè)務(wù)不能用了”,你也許沒聽過“我本來是要shutdown我的虛擬機的,沒想關(guān)生產(chǎn)庫”… …
你沒聽過的事情很多,你沒干過的事情更多,因為你還年輕.
但是一定要對生產(chǎn)環(huán)境心懷敬畏.
所有操作命令不是網(wǎng)上搜來就可以用的,你要盡可能搞清楚這個命令的副作用,這個命令下去最壞的可能,可能是什么?不懂的就虛心求教,DBAplus社群這么多大牛,實在不好意思,就先砸個大紅包過去再問.
2、保持24小時開機
做運維的沒有徹底休假之說,不要以為你休假了就關(guān)機大吉了,那離你關(guān)門大吉也不遠(yuǎn)了.嗯,所以有些公司把這條也列為紀(jì)律之一.
我曾遇到過這樣一個情況,某個DBA請假了,剛好有個環(huán)境的密碼只有他知道,而這個環(huán)境現(xiàn)在出了點問題.可想而知,當(dāng)時人是多么著急? 嗯,那個DBA休假回來就長時間離開現(xiàn)場了.
3、多請應(yīng)用的人嘮嘮嗑
完全不懂業(yè)務(wù)的DBA不是一個合格的架構(gòu)師.
要去懂業(yè)務(wù)、懂應(yīng)用、懂服務(wù),就一定要跟應(yīng)用的人嘮嗑、吃飯、抽煙,平時尊重人家,人家愿意跟你說,你就越來越熟悉業(yè)務(wù).慢慢的,你就可以為推動業(yè)務(wù)采用更合適的架構(gòu)方案.
4、不要在上班時間做普通變更
什么叫普通變更?就是你本來可以提前一天做的變更.
比如擴表空間、增加用戶權(quán)限、創(chuàng)建索引……并非是為了解決緊急故障而導(dǎo)致的變更.
提前做好變更規(guī)劃,盡量爭取每次免考核時做完所有重要的變更.
5、定期做好數(shù)據(jù)庫檢查
數(shù)據(jù)庫沒有發(fā)生故障,不代表是DBA做得好,而是故障自己還沒有發(fā)生,不是不報,實時候未到.
所以,確定好檢查規(guī)則,定期做好數(shù)據(jù)庫檢查,并進(jìn)行整改.涉及到其它配合方的整改一定要郵件抄送,并電話確認(rèn).
6、數(shù)據(jù)庫部署要給予最小化權(quán)限
安裝必要的最少組件,賦予必要的最小權(quán)限,是主動避坑的有效手段.很多數(shù)據(jù)恢復(fù),操作問題,如果能夠從權(quán)限上把把關(guān),后面就能省很多事情.
7、所有的保障手段,都要去驗證其持續(xù)可行性
部署了高可用系統(tǒng),上線前要做高可用切換測試.
部署了容災(zāi)系統(tǒng),要做定期容災(zāi)演練.
部署了應(yīng)急系統(tǒng),要做定期應(yīng)急演練.
做了數(shù)據(jù)庫備份,要做定期數(shù)據(jù)庫恢復(fù)測試.
說起來容易,做起來難.全國90%的系統(tǒng)沒有做到這一點.所以你才會經(jīng)常聽到異常恢復(fù)的案例.特別是哪些用存儲容災(zāi),或者用OGG應(yīng)急的.不是技術(shù)本身不行,而是管理不行.
8、竭盡全力推行自動化運維
在看到這條之前,你也許心里一直在暗暗的罵道,都什么時代了,還這么古板.
其實不管你是否已經(jīng)開始了自動化運維,前面的每一條都值得你好好去做好,對你有益無害.
但是,去做自動化運維,是運維DBA繞不開的路徑.就像從昆明到上海,最開始是只能靠馬幫,后來逐漸通了高速公路,現(xiàn)在開始滬昆高鐵了一樣.
這個自動化運維怎么做?完全靠自己重復(fù)造輪子顯然不完全靠譜.如果你不是BAT,也不是京東新美大餓了么,最好的方式,是找專業(yè)運維的公司研發(fā)的自動化運維平臺,是騾子是馬拿出來遛兩下,你就喜歡上了.
9、起步始于交流,收獲源于分享
做過講師的人,都會有這樣一個共識,就是講完東西,自己其實比聽課的“學(xué)生”收獲更大.這一點互聯(lián)網(wǎng)公司做得非常好,不管是BAT還是新的巨頭,都紛紛成立技術(shù)學(xué)院,領(lǐng)銜的也往往是業(yè)界大佬,把企業(yè)內(nèi)部的技術(shù)分享組織得有聲有色.
作為傳統(tǒng)企業(yè)的DBA來說,一家企業(yè)往往沒有這么個學(xué)院,但是互聯(lián)網(wǎng)上的平臺很多,比如DBAplus社群,甚至還有其他一些社群都提供這樣的機會.
為什么我們團隊工作一年的新人,可以擁有其他公司工作四五年DBA所具有的能力,除了復(fù)雜的硬件環(huán)境外,每月的分享也功不可沒.
運維沒有盡頭,注意事項也沒有盡頭,你有更好的建議,不妨說說.
原文作者:楊志洪
運維派點評:雖然這篇文章是以DBA運維場景,但對于其他應(yīng)用運維場景,其實絕大部分也是適用的,如果你有什么運維經(jīng)驗需要分享的,趕快給運維派留言吧:)
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.snjht.com/jiaocheng/4354.html