《運維必備規(guī)章制度:故障分級和處罰規(guī)范》要點:
本文介紹了運維必備規(guī)章制度:故障分級和處罰規(guī)范,希望對您有用。如果有疑問,可以聯(lián)系我們。
《海量運維、運營規(guī)劃之道》一書作者,關(guān)于海量運維、運營規(guī)劃,我想業(yè)界都沒有準(zhǔn)確的定義,假如說互聯(lián)網(wǎng)的架構(gòu)師用能否設(shè)計多高的摩天大樓來衡量架構(gòu)能力,那運維、運營更多的是在關(guān)注互聯(lián)網(wǎng)服務(wù)的質(zhì)量、效率、成本、故障、瓶頸,用戶的忍耐、抱怨等問題.
在接下來的日子里,將以質(zhì)量、效率、成本為核心,從運營規(guī)劃、管理、流程/規(guī)范、系統(tǒng)/平臺,監(jiān)控、告警、安全、優(yōu)化、考核等幾個維度結(jié)合案例來與大家分享自己的體會,內(nèi)容大致如下所示.
編者按:一個好的制度是可操作可執(zhí)行的,不是高高掛起的.每個公司情況不同,制度需要定期根據(jù)公司自身情況進行適當(dāng)修改,以下文章算是一個制度的模板,僅供參考,要想使用肯定還需要修改.
互聯(lián)網(wǎng)產(chǎn)品提供7*24小時服務(wù),而因人為操作、程序BUG等原因?qū)е路?wù)不可用是影響服務(wù)持續(xù)運行的重要原因,為了提高各業(yè)務(wù)產(chǎn)品的運維和運營質(zhì)量,規(guī)范各業(yè)務(wù)線的服務(wù)、故障響應(yīng),擬定和發(fā)布“故障分級和處罰規(guī)范”是非常必要的.
故障分級標(biāo)準(zhǔn)
運營故障中,對非不可抗力所造成的故障歸類為“故障”,對于故障將追究故障的分級,故障責(zé)任人,及故障處理結(jié)果.下面將就各類故障級別進行定義說明,由于故障可能在多方面體現(xiàn)影響,所以故障的綜合等級評定原則,取各個方面中嚴重等級最高者為該故障綜合嚴重等級,故障分級如下所示.
故障分級表
故障分類 | 等級 | 業(yè)務(wù)故障描述 |
業(yè)務(wù)可用類 | 一級故障 | 業(yè)務(wù)中斷8小時以上 |
二級故障 | 業(yè)務(wù)中斷2-8小時 | |
三級故障 | 業(yè)務(wù)中斷1-2小時,業(yè)務(wù)核心功能無法使用 | |
四級故障 | 業(yè)務(wù)中斷1小時以下,業(yè)務(wù)核心功能受到影響 | |
五級故障 | 業(yè)務(wù)中斷1小時以下,業(yè)務(wù)次要功能無法使用 | |
業(yè)務(wù)安全類 | 一級故障 | 系統(tǒng)入侵:核心業(yè)務(wù)受到入侵,核心用戶數(shù)據(jù)等受到入侵,或者系統(tǒng)文件給惡意竄改,容易引發(fā)入侵擴散; |
頁面竄改:門戶網(wǎng)站首頁給非法竄改內(nèi)容、內(nèi)容涉及危害性極大的; | ||
CGI漏洞:已經(jīng)引起大面積用戶討論、傳播和以之侵害公司品牌利益,或者造成直接經(jīng)濟損失的 | ||
二級故障 | 系統(tǒng)入侵:核心業(yè)務(wù)受到入侵,未危及重要數(shù)據(jù),僅造成擴散隱患但是并未發(fā)現(xiàn)有以外的機器系統(tǒng)受入侵的; | |
頁面竄改:業(yè)務(wù)頁面給非法竄改內(nèi)容、或者小惡作劇; | ||
CGI漏洞:由外部發(fā)現(xiàn)但還沒有造成重大危機或者造成經(jīng)濟利益損失的 | ||
三級故障 | 系統(tǒng)入侵:核心業(yè)務(wù)存在高危端口或者系統(tǒng)漏洞 | |
CGI漏洞:由內(nèi)部發(fā)現(xiàn)但還沒有造成重大危機或者造成經(jīng)濟利益損失的核心系統(tǒng)漏洞 | ||
四級故障 | 系統(tǒng)入侵:非核心業(yè)務(wù)存在高危端口或者系統(tǒng)漏洞 | |
CGI漏洞:由內(nèi)部發(fā)現(xiàn)但還沒有造成重大危機或者造成經(jīng)濟利益損失的普通系統(tǒng)漏洞 | ||
五級故障 | 隱患:自身有漏洞,但無重大后果 |
故障獎懲制度
運營故障處理評定是根據(jù)相關(guān)責(zé)任人對故障的響應(yīng)、處理、完成結(jié)果等因素來對故障的處理情況進行綜合評定,部門內(nèi)會依據(jù)這個評定來對故障處罰等級進行調(diào)整.該評定只用于由部門內(nèi)決定的故障處罰分級,公司的處罰條例不受此約束.符合下面條件者,可以對故障處罰等級進行適當(dāng)降級,具體所降等級由部門領(lǐng)導(dǎo)決定,故障升級制如下所示.
故障升級制度表
評定項 | 降級標(biāo)準(zhǔn) | 升級標(biāo)準(zhǔn) |
響應(yīng)時間 | 第一時間響應(yīng),包括故障的通知,處理,善后等事宜 | 相關(guān)人員一再催促下,責(zé)任人仍沒有及時對故障進行處理 |
準(zhǔn)備度 | 對故障發(fā)生的原因已有充分的預(yù)防機制 | 對已有發(fā)生的問題,或低級錯誤沒有進行預(yù)防或規(guī)避 |
處理態(tài)度與能力 | 在最快時間內(nèi)處理故障,并積極配合其他相關(guān)人員的故障處理工作;遇到技術(shù)問題積極尋求解決辦法和資源支持; | 對故障不重視,態(tài)度怠慢,敷衍;或沒有足夠技能進行故障處理 |
處理結(jié)果 | 系統(tǒng)在最短時間內(nèi)完全恢復(fù)正常運作,故障影響降到最低 | 故障沒有完全解決;或由于處理過程不及時不妥善導(dǎo)致故障影響(范圍,金額,投訴量,惡性輿論等)有所擴大 |
后續(xù)措施 | 對故障發(fā)生的原因進行總結(jié),制定同類故障的預(yù)防規(guī)避措施 | 拒絕對故障原因(除不可抗力因素以外)進行總結(jié)和制定預(yù)防/規(guī)避措施 |
對于所出現(xiàn)的各級運營故障,如果運營故障的主要原因由人為工作疏忽/失誤所導(dǎo)致,參照以下處罰標(biāo)準(zhǔn)對個人和項目組進行相關(guān)懲處,任何運營故障,要及時通報相關(guān)領(lǐng)導(dǎo)或相關(guān)處理人員,對于延報、瞞報故障者,將從嚴處罰,故障分級及處罰如下所示.
故障分級表
等級 | 個人處罰 |
一級故障 | 以公司級故障處罰為準(zhǔn)(全公司通報,甚至開除) |
二級故障 | 以公司級故障處罰為準(zhǔn)(全公司通報,甚至開除) |
三級故障 | 全產(chǎn)品線以及相關(guān)小組通報批評,處以2000元罰款 |
四級故障 | 全產(chǎn)品線以及相關(guān)小組通報批評,處以1000元罰款 |
五級故障 | 全產(chǎn)品線以及相關(guān)小組通報批評 |
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.snjht.com/jiaocheng/4363.html