《都是套路:高并發(fā)系統(tǒng)的降級(jí)特技》要點(diǎn):
本文介紹了都是套路:高并發(fā)系統(tǒng)的降級(jí)特技,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
張開(kāi)濤
京東集團(tuán)技術(shù)研發(fā),2014年加入京東,開(kāi)發(fā)過(guò)京東商品詳情頁(yè)、詳情頁(yè)統(tǒng)一服務(wù)架構(gòu)與開(kāi)發(fā)工作,設(shè)計(jì)并開(kāi)發(fā)了多個(gè)億級(jí)訪問(wèn)量系統(tǒng).
工作之余喜歡寫(xiě)技術(shù)博客,有《跟我學(xué) Spring》、《跟我學(xué)Spring MVC》、《跟我學(xué)Shiro》、《跟我學(xué)Nginx+Lua開(kāi)發(fā)》等系列教程.
在開(kāi)發(fā)高并發(fā)系統(tǒng)時(shí)有三把利器用來(lái)保護(hù)系統(tǒng):緩存、降級(jí)和限流.之前已經(jīng)有一些文章介紹過(guò)緩存和限流了.本文將詳細(xì)聊聊降級(jí).
當(dāng)訪問(wèn)量劇增、服務(wù)出現(xiàn)問(wèn)題(如響應(yīng)時(shí)間慢或不響應(yīng))或非核心服務(wù)影響到核心流程的性能時(shí),仍然需要保證服務(wù)還是可用的,即使是有損服務(wù).
系統(tǒng)可以根據(jù)一些關(guān)鍵數(shù)據(jù)進(jìn)行自動(dòng)降級(jí),也可以配置開(kāi)關(guān)實(shí)現(xiàn)人工降級(jí).本文將介紹一些筆者在實(shí)際工作中遇到的或見(jiàn)到過(guò)的一些降級(jí)方案供大家參考.
降級(jí)的最終目的是保證核心服務(wù)可用,即使是有損的.而且有些服務(wù)是無(wú)法降級(jí)的(如加入購(gòu)物車(chē)、結(jié)算).
在進(jìn)行降級(jí)之前要對(duì)系統(tǒng)進(jìn)行梳理,看看系統(tǒng)是不是可以丟卒保帥;從而梳理出哪些必須誓死保護(hù),哪些可降級(jí);比如可以參考日志級(jí)別設(shè)置預(yù)案:
一般:比如有些服務(wù)偶爾因?yàn)榫W(wǎng)絡(luò)抖動(dòng)或者服務(wù)正在上線而超時(shí),可以自動(dòng)降級(jí);
警告:有些服務(wù)在一段時(shí)間內(nèi)成功率有波動(dòng)(如在95~100%之間),可以自動(dòng)降級(jí)或人工降級(jí),并發(fā)送告警;
錯(cuò)誤:比如可用率低于90%,或者數(shù)據(jù)庫(kù)連接池被打爆了,或者訪問(wèn)量突然猛增到系統(tǒng)能承受的最大閥值,此時(shí)可以根據(jù)情況自動(dòng)降級(jí)或者人工降級(jí);
嚴(yán)重錯(cuò)誤:比如因?yàn)樘厥庠驍?shù)據(jù)錯(cuò)誤了,此時(shí)需要緊急人工降級(jí).
降級(jí)的功能點(diǎn)主要從服務(wù)端鏈路考慮,即根據(jù)用戶(hù)訪問(wèn)的服務(wù)調(diào)用鏈路來(lái)梳理哪里需要降級(jí):
頁(yè)面降級(jí):在大促或者某些特殊情況下,某些頁(yè)面占用了一些稀缺服務(wù)資源,在緊急情況下可以對(duì)其整個(gè)降級(jí),以達(dá)到丟卒保帥;
頁(yè)面片段降級(jí):比如商品詳情頁(yè)中的商家部分因?yàn)閿?shù)據(jù)錯(cuò)誤了,此時(shí)需要對(duì)其進(jìn)行降級(jí);
頁(yè)面異步請(qǐng)求降級(jí):比如商品詳情頁(yè)上有推薦信息/配送至等異步加載的請(qǐng)求,如果這些信息響應(yīng)慢或者后端服務(wù)有問(wèn)題,可以進(jìn)行降級(jí);
服務(wù)功能降級(jí):比如渲染商品詳情頁(yè)時(shí)需要調(diào)用一些不太重要的服務(wù):相關(guān)分類(lèi)、熱銷(xiāo)榜等,而這些服務(wù)在異常情況下直接不獲取,即降級(jí)即可;
讀降級(jí):比如多級(jí)緩存模式,如果后端服務(wù)有問(wèn)題,可以降級(jí)為只讀緩存,這種方式適用于對(duì)讀一致性要求不高的場(chǎng)景;
寫(xiě)降級(jí):比如秒殺搶購(gòu),我們可以只進(jìn)行Cache的更新,然后異步同步扣減庫(kù)存到DB,保證最終一致性即可,此時(shí)可以將DB降級(jí)為Cache.
爬蟲(chóng)降級(jí):在大促活動(dòng)時(shí),可以將爬蟲(chóng)流量導(dǎo)向靜態(tài)頁(yè)或者返回空數(shù)據(jù)從而降級(jí)保護(hù)后端稀缺資源.
自動(dòng)降級(jí)是根據(jù)系統(tǒng)負(fù)載、資源使用情況、SLA等指標(biāo)進(jìn)行降級(jí).
當(dāng)訪問(wèn)的數(shù)據(jù)庫(kù)/http服務(wù)/遠(yuǎn)程調(diào)用響應(yīng)慢或者長(zhǎng)時(shí)間響應(yīng)慢,且該服務(wù)不是核心服務(wù)的話可以在超時(shí)后自動(dòng)降級(jí);
比如商品詳情頁(yè)上有推薦內(nèi)容/評(píng)價(jià),但是推薦內(nèi)容/評(píng)價(jià)暫時(shí)不展示對(duì)用戶(hù)購(gòu)物流程不會(huì)產(chǎn)生很大的影響;
對(duì)于這種服務(wù)是可以超時(shí)降級(jí)的.如果是調(diào)用別人的遠(yuǎn)程服務(wù),和對(duì)方定義一個(gè)服務(wù)響應(yīng)最大時(shí)間,如果超時(shí)了則自動(dòng)降級(jí).
之前總結(jié)過(guò)一些的文章《使用httpclient必須知道的參數(shù)設(shè)置及代碼寫(xiě)法、存在的風(fēng)險(xiǎn)》和《dbcp配置及jdbc超時(shí)設(shè)置總結(jié)》.在實(shí)際場(chǎng)景用一定主要配置好超時(shí)時(shí)間和超時(shí)重試次數(shù)和機(jī)制.
有時(shí)候依賴(lài)一些不穩(wěn)定的API,比如調(diào)用外部機(jī)票服務(wù),當(dāng)失敗調(diào)用次數(shù)達(dá)到一定閥值自動(dòng)降級(jí);然后通過(guò)異步線程去探測(cè)服務(wù)是否恢復(fù)了,則取消降級(jí).
比如要調(diào)用的遠(yuǎn)程服務(wù)掛掉了(網(wǎng)絡(luò)故障、DNS故障、http服務(wù)返回錯(cuò)誤的狀態(tài)碼、rpc服務(wù)拋出異常),則可以直接降級(jí).
降級(jí)后的處理方案有:
默認(rèn)值(比如庫(kù)存服務(wù)掛了,返回默認(rèn)現(xiàn)貨)
兜底數(shù)據(jù)(比如廣告掛了,返回提前準(zhǔn)備好的一些靜態(tài)頁(yè)面)
緩存(之前暫存的一些緩存數(shù)據(jù))
當(dāng)我們?nèi)ッ霘⒒蛘邠屬?gòu)一些限購(gòu)商品時(shí),此時(shí)可能會(huì)因?yàn)樵L問(wèn)量太大而導(dǎo)致系統(tǒng)崩潰,此時(shí)開(kāi)發(fā)者會(huì)使用限流來(lái)進(jìn)行限制訪問(wèn)量,當(dāng)達(dá)到限流閥值,后續(xù)請(qǐng)求會(huì)被降級(jí);
降級(jí)后的處理方案可以是:
排隊(duì)頁(yè)面(將用戶(hù)導(dǎo)流到排隊(duì)頁(yè)面等一會(huì)重試)
無(wú)貨(直接告知用戶(hù)沒(méi)貨了)
錯(cuò)誤頁(yè)(如活動(dòng)太火爆了,稍后重試)
- 在大促期間通過(guò)監(jiān)控發(fā)現(xiàn)線上的一些服務(wù)存在問(wèn)題,這個(gè)時(shí)候需要暫時(shí)將這些服務(wù)摘掉;
- 還有有時(shí)候通過(guò)任務(wù)系統(tǒng)調(diào)用一些服務(wù),但是服務(wù)依賴(lài)的數(shù)據(jù)庫(kù)可能存在:網(wǎng)卡被打滿(mǎn)了、掛掉了或者很多慢查詢(xún),此時(shí)需要暫停下任務(wù)系統(tǒng)讓服務(wù)方進(jìn)行處理;
- 還有發(fā)現(xiàn)突然調(diào)用量太大,可能需要改變處理方式(比如同步轉(zhuǎn)換為異步);
此時(shí)就可以使用開(kāi)關(guān)來(lái)完成降級(jí).
開(kāi)關(guān)可以存放到配置文件、存放到數(shù)據(jù)庫(kù)、存放到Redis/ZooKeeper;如果不是存放在本地,可以定期同步開(kāi)關(guān)數(shù)據(jù)(比如1秒同步一次).然后通過(guò)判斷某個(gè)KEY的值來(lái)決定是否降級(jí).
另外對(duì)于新開(kāi)發(fā)的服務(wù)想上線進(jìn)行灰度測(cè)試;但是不太確定該服務(wù)的邏輯是否正確,此時(shí)就需要設(shè)置開(kāi)關(guān),當(dāng)新服務(wù)有問(wèn)題可以通過(guò)開(kāi)關(guān)切換回老服務(wù).
還有多機(jī)房服務(wù),如果某個(gè)機(jī)房掛掉了,此時(shí)需要將一個(gè)機(jī)房的服務(wù)切到另一個(gè)機(jī)房,此時(shí)也可以通過(guò)開(kāi)關(guān)完成切換.
還有一些是因?yàn)楣δ軉?wèn)題需要暫時(shí)屏蔽掉某些功能,比如商品規(guī)格參數(shù)數(shù)據(jù)有問(wèn)題,數(shù)據(jù)問(wèn)題不能用回滾解決,此時(shí)需要開(kāi)關(guān)控制降級(jí).
對(duì)于讀服務(wù)降級(jí)一般采用的策略有:
暫時(shí)切換讀(降級(jí)到讀緩存、降級(jí)到走靜態(tài)化)
暫時(shí)屏蔽讀(屏蔽讀入口、屏蔽某個(gè)讀服務(wù))
在《應(yīng)用多級(jí)緩存模式支撐海量讀服務(wù)》中曾經(jīng)介紹過(guò)讀服務(wù),即:
接入層緩存→應(yīng)用層本地緩存→分布式緩存→RPC服務(wù)/DB
我們會(huì)在接入層、應(yīng)用層設(shè)置開(kāi)關(guān),當(dāng)分布式緩存、RPC服務(wù)/DB有問(wèn)題自動(dòng)降級(jí)為不調(diào)用.當(dāng)然這種情況適用于對(duì)讀一致性要求不高的場(chǎng)景.
頁(yè)面降級(jí)、頁(yè)面片段降級(jí)、頁(yè)面異步請(qǐng)求降級(jí)都是讀服務(wù)降級(jí),目的是丟卒保帥(比如因?yàn)檫@些服務(wù)也要使用核心資源、或者占了帶寬影響到核心服務(wù))或者因數(shù)據(jù)問(wèn)題暫時(shí)屏蔽.
還有一種是頁(yè)面靜態(tài)化場(chǎng)景:
動(dòng)態(tài)化降級(jí)為靜態(tài)化:比如平時(shí)網(wǎng)站可以走動(dòng)態(tài)化渲染商品詳情頁(yè),但是到了大促來(lái)臨之際可以將其切換為靜態(tài)化來(lái)減少對(duì)核心資源的占用,而且可以提升性能;其他還有如列表頁(yè)、首頁(yè)、頻道頁(yè)都可以這么玩;可以通過(guò)一個(gè)程序定期的推送靜態(tài)頁(yè)到緩存或者生成到磁盤(pán),出問(wèn)題時(shí)直接切過(guò)去;
靜態(tài)化降級(jí)為動(dòng)態(tài)化:比如當(dāng)使用靜態(tài)化來(lái)實(shí)現(xiàn)商品詳情頁(yè)架構(gòu)時(shí),平時(shí)使用靜態(tài)化來(lái)提供服務(wù),但是因?yàn)樘厥庠蜢o態(tài)化頁(yè)面有問(wèn)題了,需要暫時(shí)切換回動(dòng)態(tài)化來(lái)保證服務(wù)正確性.
以上都保證出問(wèn)題了有預(yù)案,用戶(hù)還是可以使用網(wǎng)站,不影響用戶(hù)購(gòu)物.
寫(xiě)服務(wù)在大多數(shù)場(chǎng)景下是不可降級(jí)的,不過(guò)可以通過(guò)一些迂回戰(zhàn)術(shù)來(lái)解決問(wèn)題.比如將同步操作轉(zhuǎn)換為異步操作,或者限制寫(xiě)的量/比例.
比如扣減庫(kù)存一般這樣操作:
a、扣減DB庫(kù)存;
b、扣減成功后更新Redis中的庫(kù)存;
a、扣減Redis庫(kù)存;
b、同步扣減DB庫(kù)存,如果扣減失敗則回滾Redis庫(kù)存;
前兩種方案非常依賴(lài)DB,假設(shè)此時(shí)DB性能跟不上則扣減庫(kù)存就會(huì)遇到問(wèn)題;因此我們可以想到方案3:
a、扣減Redis庫(kù)存:
b、正常同步扣減DB庫(kù)存,性能扛不住時(shí)降級(jí)為發(fā)送一條扣減DB庫(kù)存的消息,然后異步進(jìn)行DB庫(kù)存扣減實(shí)現(xiàn)最終一致即可;
這種方式發(fā)送扣減DB庫(kù)存消息也可能成為瓶頸;這種情況我們可以考慮方案4:
a、扣減Redis庫(kù)存;
b、正常同步扣減DB庫(kù)存,性能扛不住時(shí)降級(jí)為寫(xiě)扣減DB庫(kù)存消息到本機(jī),然后本機(jī)通過(guò)異步進(jìn)行DB庫(kù)存扣減來(lái)實(shí)現(xiàn)最終一致性.
也就是說(shuō)正常情況可以同步扣減庫(kù)存,在性能扛不住時(shí)降級(jí)為異步;另外如果是秒殺場(chǎng)景可以直接降級(jí)為異步,從而保護(hù)系統(tǒng).
還有如下單操作可以在大促時(shí)暫時(shí)降級(jí)將下單數(shù)據(jù)寫(xiě)入Redis,然后等峰值過(guò)去了再同步回DB,當(dāng)然也有更好的解決方案,但是更復(fù)雜,不是本文的重點(diǎn).
還有如用戶(hù)評(píng)價(jià),如果評(píng)價(jià)量太大,也可以把評(píng)價(jià)從同步寫(xiě)降級(jí)為異步寫(xiě).當(dāng)然也可以對(duì)評(píng)價(jià)按鈕進(jìn)行按比例開(kāi)放(比如一些人的看不到評(píng)價(jià)操作按鈕).比如評(píng)價(jià)成功后會(huì)發(fā)一些獎(jiǎng)勵(lì),在必要的時(shí)候降級(jí)同步到異步.
緩存是離用戶(hù)最近越高效;而降級(jí)是離用戶(hù)越近越能對(duì)系統(tǒng)保護(hù)的好.因?yàn)闃I(yè)務(wù)的復(fù)雜性導(dǎo)致越到后端QPS/TPS越低.
頁(yè)面JS降級(jí)開(kāi)關(guān):主要控制頁(yè)面功能的降級(jí),在頁(yè)面中通過(guò)JS腳本部署功能降級(jí)開(kāi)關(guān),在適當(dāng)時(shí)機(jī)開(kāi)啟/關(guān)閉開(kāi)關(guān);
接入層降級(jí)開(kāi)關(guān):主要控制請(qǐng)求入口的降級(jí),請(qǐng)求進(jìn)入后會(huì)首先進(jìn)入接入層,在接入層可以配置功能降級(jí)開(kāi)關(guān),可以根據(jù)實(shí)際情況進(jìn)行自動(dòng)/人工降級(jí);
這個(gè)可以參考《京東商品詳情頁(yè)服務(wù)閉環(huán)實(shí)踐》,尤其在后端應(yīng)用服務(wù)出問(wèn)題時(shí),通過(guò)接入層降級(jí)從而給應(yīng)用服務(wù)有足夠的時(shí)間恢復(fù)服務(wù);
應(yīng)用層降級(jí)開(kāi)關(guān):主要控制業(yè)務(wù)的降級(jí),在應(yīng)用中配置相應(yīng)的功能開(kāi)關(guān),根據(jù)實(shí)際業(yè)務(wù)情況進(jìn)行自動(dòng)/人工降級(jí).
降級(jí)能保障系統(tǒng)在大促中活下來(lái),而不是死去,達(dá)到丟卒保帥的作用.對(duì)用戶(hù)提供有損服務(wù),總比不服務(wù)要好.根據(jù)自己的場(chǎng)景設(shè)計(jì)相應(yīng)的降級(jí)策略,保障系統(tǒng)在危機(jī)時(shí)刻能通過(guò)降級(jí)手段平穩(wěn)度過(guò).
文/張開(kāi)濤
文章出處:高效運(yùn)維
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.snjht.com/jiaocheng/4465.html