《Redis作者:深度剖析Redis持久化》要點(diǎn):
本文介紹了Redis作者:深度剖析Redis持久化,希望對(duì)您有用。如果有疑問,可以聯(lián)系我們。
近日,Redis的作者在博客中寫到,他看到的所有針對(duì)Redis的討論中,對(duì)Redis持久化的誤解是最大的,于是他寫了一篇長(zhǎng)文來對(duì)Redis的持久化進(jìn)行了系統(tǒng)性的論述.
文章主要包括三個(gè)方面:Redis持久化是如何工作的、這一性能是否可靠以及和其它類型的數(shù)據(jù)庫(kù)比較.以下為文章內(nèi)容:
一、Redis持久化是如何工作的?
什么是持久化?簡(jiǎn)單來講就是將數(shù)據(jù)放到斷電后數(shù)據(jù)不會(huì)丟失的設(shè)備中,也就是我們通常理解的硬盤上.
首先我們來看一下數(shù)據(jù)庫(kù)在進(jìn)行寫操作時(shí)到底做了哪些事,主要有下面五個(gè)過程:
客戶端向服務(wù)端發(fā)送寫操作(數(shù)據(jù)在客戶端的內(nèi)存中).
1 The client sends a write command to the database (data is in client's memory)
數(shù)據(jù)庫(kù)服務(wù)端接收到寫哀求的數(shù)據(jù)(數(shù)據(jù)在服務(wù)端的內(nèi)存中).
2: The database receives the write (data is in server's memory).
服務(wù)端調(diào)用write這個(gè)系統(tǒng)調(diào)用,將數(shù)據(jù)往磁盤上寫(數(shù)據(jù)在系統(tǒng)內(nèi)存的緩沖區(qū)中).
3 The database calls the system call that writes the data on disk (data is in the kernel's buffer).
操作系統(tǒng)將緩沖區(qū)中的數(shù)據(jù)轉(zhuǎn)移到磁盤控制器上(數(shù)據(jù)在磁盤緩存中).
4: The operating system transfers the write buffer to the disk controller (data is in the disk cache)
磁盤控制器將數(shù)據(jù)寫到磁盤的物理介質(zhì)中(數(shù)據(jù)真正落到磁盤上).
5: The disk controller actually writes the data into a physical media (a magnetic disk, a Nand chip, ...).
故障分析
寫操作大致有上面5個(gè)流程,下面我們結(jié)合上面的5個(gè)流程看一下各種級(jí)別的故障:
當(dāng)數(shù)據(jù)庫(kù)系統(tǒng)故障時(shí),這時(shí)候系統(tǒng)內(nèi)核還是完好的.那么此時(shí)只要我們執(zhí)行完了第3步,那么數(shù)據(jù)就是平安的,因?yàn)楹罄m(xù)操作系統(tǒng)會(huì)來完成后面幾步,保證數(shù)據(jù)最終會(huì)落到磁盤上.
當(dāng)系統(tǒng)斷電時(shí),這時(shí)候上面5項(xiàng)中提到的所有緩存都會(huì)失效,并且數(shù)據(jù)庫(kù)和操作系統(tǒng)都會(huì)停止工作.所以只有當(dāng)數(shù)據(jù)在完成第5步后,才能保證在斷電后數(shù)據(jù)不丟失.
通過上面5步的了解,可能我們會(huì)希望搞清下面一些問題:
1 數(shù)據(jù)庫(kù)多長(zhǎng)時(shí)間調(diào)用一次write,將數(shù)據(jù)寫到內(nèi)核緩沖區(qū)?
2 內(nèi)核多長(zhǎng)時(shí)間會(huì)將系統(tǒng)緩沖區(qū)中的數(shù)據(jù)寫到磁盤控制器?
3 磁盤控制器又在什么時(shí)候把緩存中的數(shù)據(jù)寫到物理介質(zhì)上?
對(duì)于第一個(gè)問題,通常數(shù)據(jù)庫(kù)層面會(huì)進(jìn)行全面控制.
Let's start from step 3. We can use the write system call to transfer data to the kernel buffers,
so from this point of view we have a good control using the POSIX API.
However we don't have much control about how much time this system call will take before returning successfully.The kernel write buffer is limited in size,
if the disk is not able to cope with the application write bandwidth, the kernel write buffer will reach it's maximum size and the kernel will block our write.
When the disk will be able to receive more data, the write system call will finally return.
After all the goal is to, eventually, reach the physical media.
kernel buffers 有限可能滿 此時(shí)會(huì)block
第二個(gè)問題,操作系統(tǒng)有其默認(rèn)的策略,
但是我們也可以通過POSIX API提供的fsync系列命令強(qiáng)制操作系統(tǒng)將數(shù)據(jù)從內(nèi)核區(qū)寫到磁盤控制器上.
For instance Linux by default will actually commit writes after 30 seconds.
This means that if there is a failure, all the data written in the latest 30 seconds can get potentially lost
系統(tǒng)默認(rèn)30秒寫一次,如果這30秒內(nèi)單機(jī)造成數(shù)據(jù)lost
第三個(gè)問題
好像數(shù)據(jù)庫(kù)已經(jīng)無法觸及
What we can't control
So far we learned that we can control step 3 and 4, but what about 5?
Well formally speaking we don't have control from this point of view using the POSIX API
不能通過代碼方式來控制了
但實(shí)際上,大多數(shù)情況下磁盤緩存是被設(shè)置關(guān)閉的,或者是只開啟為讀緩存,也就是說寫操作不會(huì)進(jìn)行緩存,直接寫到磁盤.建議的做法是僅僅當(dāng)你的磁盤設(shè)備有備用電池時(shí)才開啟寫緩存.
Note: when we talk about disk controller we actually mean the caching performed by the controller or the disk itself. In environments where durability is important system administrators usually disable this layer of caching.
Disk controllers by default only perform a write through caching for most systems (i.e. only reads are cached, not writes). It is safe to enable the write back mode (caching of writes) only when you have batteries or a super-capacitor device protecting the data in case of power shutdown. 系統(tǒng)的電池來控制
數(shù)據(jù)損壞(Data corruption)
所謂數(shù)據(jù)損壞,就是數(shù)據(jù)無法恢復(fù),上面我們講的都是如何保證數(shù)據(jù)是確實(shí)寫到磁盤上去,但是寫到磁盤上可能并不意味著數(shù)據(jù)不會(huì)損壞.比如我們可能一次寫哀求會(huì)進(jìn)行兩次不同的寫操作,當(dāng)意外發(fā)生時(shí),可能會(huì)導(dǎo)致一次寫操作安全完成,但是另一次還沒有進(jìn)行.如果數(shù)據(jù)庫(kù)的數(shù)據(jù)文件結(jié)構(gòu)組織不合理,可能就會(huì)導(dǎo)致數(shù)據(jù)完全不能恢復(fù)的狀況出現(xiàn).
這里通常也有三種策略來組織數(shù)據(jù),以防止數(shù)據(jù)文件損壞到無法恢復(fù)的情況:
第一種是最粗糙的處理,就是不通過數(shù)據(jù)的組織形式保證數(shù)據(jù)的可恢復(fù)性.而是通過配置數(shù)據(jù)同步備份的方式,在數(shù)據(jù)文件損壞后通過數(shù)據(jù)備份來進(jìn)行恢復(fù).實(shí)際上MongoDB在不開啟操作日志,通過配置Replica Sets時(shí)就是這種情況.
另一種是在上面基礎(chǔ)上添加一個(gè)操作日志,每次操作時(shí)記一下操作的行為,這樣我們可以通過操作日志來進(jìn)行數(shù)據(jù)恢復(fù).因?yàn)椴僮魅罩臼琼樞蜃芳拥姆绞綄懙?所以不會(huì)出現(xiàn)操作日志也無法恢復(fù)的情況.這也類似于MongoDB開啟了操作日志的情況.
更保險(xiǎn)的做法是數(shù)據(jù)庫(kù)不進(jìn)行舊數(shù)據(jù)的修改,只是以追加方式去完成寫操作,這樣數(shù)據(jù)自己就是一份日志,這樣就永遠(yuǎn)不會(huì)出現(xiàn)數(shù)據(jù)無法恢復(fù)的情況了.實(shí)際上CouchDB就是此做法的優(yōu)秀范例.
1、Redis的第一個(gè)持久化策略:RDB快照 Snapshotting
觸發(fā)方式翻譯有遺留就是多久觸發(fā)一次
Redis snapshotting is the simplest Redis persistence mode. It produces point-in-time snapshots of the dataset when specific conditions are met, for instance if the previous snapshot was created more than 2 minutes ago and there are already at least 100 new writes, a new snapshot is created.
This conditions can be controlled by the user configuring the Redis instance, and can also be modified at runtime without restarting the server.
Snapshots are produced as a single .rdb file that contains the whole dataset
Redis支持將當(dāng)前數(shù)據(jù)的快照存成一個(gè)數(shù)據(jù)文件的持久化機(jī)制.而一個(gè)持續(xù)寫入的數(shù)據(jù)庫(kù)如何生成快照呢.Redis借助了fork命令的copy on write機(jī)制.在生成快照時(shí),將當(dāng)前進(jìn)程fork出一個(gè)子進(jìn)程,然后在子進(jìn)程中循環(huán)所有的數(shù)據(jù),將數(shù)據(jù)寫成為RDB文件.
我們可以通過Redis的save指令來配置RDB快照生成的時(shí)機(jī),
比如你可以配置當(dāng)10分鐘以內(nèi)有100次寫入就生成快照,
也可以配置當(dāng)1小時(shí)內(nèi)有1000次寫入就生成快照,也可以多個(gè)規(guī)則一起實(shí)施.
這些規(guī)則的定義就在Redis的配置文件中,
你也可以通過Redis的CONFIG SET命令在Redis運(yùn)行時(shí)設(shè)置規(guī)則,不需要重啟Redis.
Redis的RDB文件不會(huì)壞掉,因?yàn)槠鋵懖僮魇窃谝粋€(gè)新進(jìn)程中進(jìn)行的,當(dāng)生成一個(gè)新的RDB文件時(shí),Redis生成的子進(jìn)程會(huì)先將數(shù)據(jù)寫到一個(gè)臨時(shí)文件中,然后通過原子性rename系統(tǒng)調(diào)用將臨時(shí)文件重命名為RDB文件,這樣在任何時(shí)候出現(xiàn)故障,Redis的RDB文件都總是可用的.
同時(shí),Redis的RDB文件也是Redis主從同步內(nèi)部實(shí)現(xiàn)中的一環(huán).
但是,我們可以很明顯的看到,
RDB有它的不足,就是一旦數(shù)據(jù)庫(kù)出現(xiàn)問題,那么我們的RDB文件中保留的數(shù)據(jù)并不是全新的,從上次RDB文件生成到 Redis停機(jī)這段時(shí)間的數(shù)據(jù)全部丟掉了.
在某些業(yè)務(wù)下,這是可以忍受的,我們也保舉這些業(yè)務(wù)使用RDB的方式進(jìn)行持久化,
因?yàn)殚_啟RDB的代價(jià)并不高. 但是對(duì)于另外一些對(duì)數(shù)據(jù)平安性要求極高的應(yīng)用,無法容忍數(shù)據(jù)丟失的應(yīng)用,RDB就無能為力了,所以Redis引入了另一個(gè)重要的持久化機(jī)制:AOF日志.
2、Redis的第二個(gè)持久化策略:AOF日志 Append only file
AOF日志的全稱是Append Only File,從名字上我們就能看出來,它是一個(gè)追加寫入的日志文件.與一般數(shù)據(jù)庫(kù)不同的是,AOF文件是可識(shí)別的純文本,它的內(nèi)容就是一個(gè)個(gè)的Redis標(biāo)準(zhǔn)命令.比如我們進(jìn)行如下實(shí)驗(yàn),使用Redis2.6 版本,在啟動(dòng)命令參數(shù)中設(shè)置開啟AOF功能:
代碼
./redis-server --appendonly yes
然后我們執(zhí)行如下的命令:
代碼
redis 127.0.0.1:6379> set key1 Hello
OK
redis 127.0.0.1:6379> append key1 " World!"
(integer) 12
redis 127.0.0.1:6379> del key1
(integer) 1
redis 127.0.0.1:6379> del non_existing_key
(integer) 0
這時(shí)我們查看AOF日志文件,就會(huì)得到如下內(nèi)容:
代碼
$ cat appendonly.aof
*2
$6
SELECT
$1
0
*3
$3
set
$4
key1
$5
Hello
*3
可以看到,寫操作都生成了一條相應(yīng)的命令作為日志.
其中值得注意的是最后一個(gè)del命令,它并沒有被記錄在AOF日志中,這是因?yàn)镽edis判斷出 這個(gè)命令不會(huì)對(duì)當(dāng)前數(shù)據(jù)集做出修改.所以不需要記錄這個(gè)無用的寫命令.
另外AOF日志也不是完全按客戶端的哀求來生成日志的,比如命令 INCRBYFLOAT 在記AOF日志時(shí)就被記成一條SET記錄,因?yàn)楦↑c(diǎn)數(shù)操作可能在不同的系統(tǒng)上會(huì)不同,所以為了避免同一份日志在不同的系統(tǒng)上生成不同的數(shù)據(jù)集,所以這里只將操作后的結(jié)果通過SET來記錄.
有產(chǎn)生新的問題了 aof越來越大怎么辦!
我就建議是移動(dòng)dump一次移動(dòng)當(dāng)前aof文件到歷史記錄
However this desirable feature can also be a problem:
in the above example after the DEL operation our instance is completely empty, s
till the AOF is a few bytes worth of data.
The AOF is an always growing file,
so how to deal with it when it gets too big?
AOF重寫
你可以會(huì)想,每一條寫命令都生成一條日志,那么AOF文件是不是會(huì)很大?答案是肯定的,AOF文件會(huì)越來越大,所以Redis又提供了一個(gè)功能,叫做AOF rewrite.
其功能就是重新生成一份AOF文件,新的AOF文件中一條記錄的操作只會(huì)有一次,
而不像一份老文件那樣,可能記錄了對(duì)同一個(gè)值的多次操作.
其生成過程和RDB類似,也是fork一個(gè)進(jìn)程,直接遍歷數(shù)據(jù),寫入新的AOF臨時(shí)文件.
在寫入新文件的過程中,所有的寫操作日志還是會(huì)寫到本來老的 AOF文件中,同時(shí)還會(huì)記錄在內(nèi)存緩沖區(qū)中.
當(dāng)重完操作完成后,會(huì)將所有緩沖區(qū)中的日志一次性寫入到臨時(shí)文件中.
然后調(diào)用原子性的rename命令用新的 AOF文件取代老的AOF文件.
二、Redis持久化性能是否可靠?
而AOF是一個(gè)寫文件操作,其目的是將操作日志寫到磁盤上,所以它也同樣會(huì)遇到我們上面說的寫操作的5個(gè)流程.那么寫AOF的操作平安性又有多高呢?實(shí)際上這是可以設(shè)置的,
在Redis中對(duì)AOF調(diào)用write寫入后,何時(shí)再調(diào)用fsync將其寫到磁盤上,
通過appendfsync選項(xiàng)來控制,
下面appendfsync的三個(gè)設(shè)置項(xiàng),平安強(qiáng)度逐漸變強(qiáng).
1、appendfsync no
當(dāng)設(shè)置appendfsync為no的時(shí)候,Redis不會(huì)主動(dòng)調(diào)用fsync去將AOF日志內(nèi)容同步到磁盤,所以這一切就完全依賴于操作系統(tǒng)的調(diào)試了.對(duì)大多數(shù)Linux操作系統(tǒng),是每30秒進(jìn)行一次fsync,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤上.
2、appendfsync everysec
當(dāng)設(shè)置appendfsync為everysec的時(shí)候,Redis會(huì)默認(rèn)每隔一秒進(jìn)行一次fsync調(diào)用,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤.但是當(dāng)這一 次的fsync調(diào)用時(shí)長(zhǎng)超過1秒時(shí).Redis會(huì)采取延遲fsync的策略,再等一秒鐘.也就是在兩秒后再進(jìn)行fsync,這一次的fsync就不管會(huì)執(zhí)行多長(zhǎng)時(shí)間都會(huì)進(jìn)行.這時(shí)候由于在fsync時(shí)文件描述符會(huì)被阻塞,所以當(dāng)前的寫操作就會(huì)阻塞.
所以,結(jié)論就是:在絕大多數(shù)情況下,Redis會(huì)每隔一秒進(jìn)行一次fsync.在最壞的情況下,兩秒鐘會(huì)進(jìn)行一次fsync操作.
這一操作在大多數(shù)數(shù)據(jù)庫(kù)系統(tǒng)中被稱為group commit,就是組合多次寫操作的數(shù)據(jù),一次性將日志寫到磁盤.
3、appednfsync always
當(dāng)設(shè)置appendfsync為always時(shí),每一次寫操作都會(huì)調(diào)用一次fsync,這時(shí)數(shù)據(jù)是最平安的,當(dāng)然,由于每次都會(huì)執(zhí)行fsync,所以其性能也會(huì)受到影響.
對(duì)于pipelining有什么不同?
對(duì)于pipelining的操作,
其具體過程是客戶端一次性發(fā)送N個(gè)命令,然后等待這N個(gè)命令的返回結(jié)果被一起返回.
通過采用pipilining 就意味著放棄了對(duì)每一個(gè)命令的返回值確認(rèn).
由于在這種情況下,N個(gè)命令是在同一個(gè)執(zhí)行過程中執(zhí)行的.
所以當(dāng)設(shè)置appendfsync為everysec 時(shí),
可能會(huì)有一些偏差,因?yàn)檫@N個(gè)命令可能執(zhí)行時(shí)間超過1秒甚至2秒(執(zhí)行失敗怎么辦)
但是可以保證的是,最長(zhǎng)時(shí)間不會(huì)超過這N個(gè)命令的執(zhí)行時(shí)間和.
用事物來控制吧
AOF and Redis transactions
AOF guarantees a correct MULTI/EXEC transactions semantic, and will refuse to reload a file that contains a broken transaction at the end of the file. An utility shipped with the Redis server can trim the AOF file to remove the partial transaction at the end.
Note: since the AOF file is populated using a single write(2) call at the end of every event loop iteration, an incomplete transaction can only appear if the disk where the AOF resides gets full while Redis is writing.
三、和其它數(shù)據(jù)庫(kù)的比較
上面操作系統(tǒng)層面的數(shù)據(jù)平安我們已經(jīng)講了很多,其實(shí),不同的數(shù)據(jù)庫(kù)在實(shí)現(xiàn)上都大同小異.總之,最后的結(jié)論就是,在Redis開啟AOF的情況下,其單機(jī)數(shù)據(jù)平安性并不比這些成熟的SQL數(shù)據(jù)庫(kù)弱.
在數(shù)據(jù)導(dǎo)入方面的比較
這些持久化的數(shù)據(jù)有什么用,當(dāng)然是用于重啟后的數(shù)據(jù)恢復(fù).Redis是一個(gè)內(nèi)存數(shù)據(jù)庫(kù),無論是RDB還是AOF,都只是其保證數(shù)據(jù)恢復(fù)的措施.所以 Redis在利用RDB和AOF進(jìn)行恢復(fù)的時(shí)候,都會(huì)讀取RDB或AOF文件,重新加載到內(nèi)存中.相對(duì)于MySQL等數(shù)據(jù)庫(kù)的啟動(dòng)時(shí)間來說,會(huì)長(zhǎng)很多,因?yàn)镸ySQL原來是不需要將數(shù)據(jù)加載到內(nèi)存中的.
但是相對(duì)來說,MySQL啟動(dòng)后提供服務(wù)時(shí),其被拜訪的熱數(shù)據(jù)也會(huì)慢慢加載到內(nèi)存中,通常我們稱之為預(yù)熱,而在預(yù)熱完成前,其性能都不會(huì)太高.而Redis的好處是一次性將數(shù)據(jù)加載到內(nèi)存中,一次性預(yù)熱.這樣只要Redis啟動(dòng)完成,那么其提供服務(wù)的速度都是非常快的.
而在利用RDB和利用AOF啟動(dòng)上,其啟動(dòng)時(shí)間有一些差別.RDB的啟動(dòng)時(shí)間會(huì)更短,原因有兩個(gè),一是RDB文件中每一條數(shù)據(jù)只有一條記錄,不會(huì)像 AOF日志那樣可能有一條數(shù)據(jù)的多次操作記錄.所以每條數(shù)據(jù)只需要寫一次就行了.另一個(gè)原因是RDB文件的存儲(chǔ)格式和Redis數(shù)據(jù)在內(nèi)存中的編碼格式是一致的,不需要再進(jìn)行數(shù)據(jù)編碼工作.在CPU消耗上要遠(yuǎn)小于AOF日志的加載.
英文原文:Redis persistence demystified
通過對(duì)比英文和中文 現(xiàn)在翻譯不是信達(dá)雅了 只翻譯好的概念,
作者提到的問題 如何辦理的不翻譯 因此閱讀完畢讓人更加迷糊
我不清楚翻譯人員是如何想的 還是機(jī)器翻譯一遍 然后本身修改一下
歡迎參與《Redis作者:深度剖析Redis持久化》討論,分享您的想法,維易PHP學(xué)院為您提供專業(yè)教程。
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.snjht.com/jiaocheng/10658.html