課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理

上傳人：我*** IP屬地：北京上傳時(shí)間：2022-02-20 格式：DOCX 頁(yè)數(shù)：12 大?。?.23MB 積分：9.6 舉報(bào) 版權(quán)申訴

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理_第2頁(yè)

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理_第3頁(yè)

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理_第4頁(yè)

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理_第5頁(yè)

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、如何處理所有的Replica不工作的情況在ISR中至少有一個(gè)follower時(shí)，Kafka可以確保已經(jīng)commit的數(shù)據(jù)不丟失，但如果某個(gè)Partition的所有Replica都宕機(jī)了，就無(wú)法保證數(shù)據(jù)不丟失了1. 等待ISR中的任一個(gè)Replica“活”過(guò)來(lái)，并且選它作為L(zhǎng)eader2. 選擇第一個(gè)“活”過(guò)來(lái)的Replica（不一定是ISR中的）作為L(zhǎng)eader這就需要在可用性和一致性當(dāng)中作出一個(gè)簡(jiǎn)單的折衷。如果一定要等待ISR中的Replica“活”過(guò)來(lái)，那不可用的時(shí)間就可能會(huì)相對(duì)較長(zhǎng)。而且如果ISR中的所有Replica都無(wú)法“活”過(guò)來(lái)了，或者數(shù)據(jù)都丟失了，這個(gè)Partition將永遠(yuǎn)不

2、可用。選擇第一個(gè)“活”過(guò)來(lái)的Replica作為L(zhǎng)eader，而這個(gè)Replica不是ISR中的Replica，那即使它并不保證已經(jīng)包含了所有已commit的消息，它也會(huì)成為L(zhǎng)eader而作為consumer的數(shù)據(jù)源（前文有說(shuō)明，所有讀寫(xiě)都由Leader完成）。在我們課堂講的版本中，使用的是第一種策略。副本數(shù)據(jù)同步原理了解了副本的協(xié)同過(guò)程以后，還有一個(gè)最重要的機(jī)制，就是數(shù)據(jù)的同步過(guò)程。它需要解決1. 怎么傳播消息2. 在向消息發(fā)送端返回ack之前需要保證多少個(gè)Replica已經(jīng)接收到這個(gè)消息數(shù)據(jù)的處理過(guò)程是下圖中，深紅色部分表示test_replica分區(qū)的leader副本，另外兩個(gè)節(jié)點(diǎn)上淺

3、色部分表示follower副本Producer在發(fā)布消息到某個(gè)Partition時(shí)，先通過(guò)ZooKeeper找到該P(yáng)artition的Leader get/brokers/topics/partitions/2/state ，然后無(wú)論該Topic的Replication Factor為多少（也即該P(yáng)artition有多少個(gè)Replica），Producer只將該消息發(fā)送到該P(yáng)artition的Leader。Leader會(huì)將該消息寫(xiě)入其本地Log。每個(gè)Follower都從Leader pull數(shù)據(jù)。這種，F(xiàn)ollower的數(shù)據(jù)順序與Leader保持一致。Follower在收到該消息并寫(xiě)入其Log

4、后，向Leader發(fā)送ACK。一旦Leader收到了ISR中的所有Replica的ACK，該消息就被認(rèn)為已經(jīng)commit了，Leader將增加HW(HighWatermark)并且向Producer發(fā)送ACK。LEO：即日志末端位移(log end oset)，記錄了該副本底層日志(log)中下一條消息的位移值。注意是下一條消息！也就是說(shuō)，如果LEO=10，那么表示該副本保存了10條消息，位移值范圍是0, 9。另外， leader LEO和follower LEO的更新是有區(qū)別的。我們后面會(huì)詳細(xì)說(shuō)HW：即上面提到的水位值（Hight Water）。對(duì)于同一個(gè)副本對(duì)象而言，其HW值不會(huì)大于LEO

5、值。小于等于HW值的所有消息都被認(rèn)為是“已備份”的（replicated）。同理，leader副本和follower副本的HW更新是有區(qū)別的通過(guò)下面這幅圖來(lái)表達(dá)LEO、HW的含義，隨著follower副本不斷和leader副本進(jìn)行數(shù)據(jù)同步，follower 副本的LEO會(huì)主鍵后移并且追趕到leader副本，這個(gè)追趕上的判斷標(biāo)準(zhǔn)是當(dāng)前副本的LEO是否大于或者等于leader副本的HW，這個(gè)追趕上也會(huì)使得被踢出的follower副本重新加入到ISR集合中。另外，假如說(shuō)下圖中的最右側(cè)的follower副本被踢出ISR集合，也會(huì)導(dǎo)致這個(gè)分區(qū)的HW發(fā)生變化，變成了3初始狀態(tài)初始狀態(tài)下，leader和

6、follower的HW和LEO都是0，leader副本會(huì)保存remote LEO，表示所有follower LEO，也會(huì)被初始化為0，這個(gè)時(shí)候，producer沒(méi)有發(fā)送消息。follower會(huì)不斷地個(gè)leader發(fā)送FETCH 請(qǐng)求，但是因?yàn)闆](méi)有數(shù)據(jù)，這個(gè)請(qǐng)求會(huì)被leader寄存，當(dāng)在指定的時(shí)間之后會(huì)強(qiáng)制完成請(qǐng)求，這個(gè)時(shí)間配置是(replica.fetch.wait.max.ms)，如果在指定時(shí)間內(nèi)producer有消息發(fā)送過(guò)來(lái)，那么kafka會(huì)喚醒fetch請(qǐng)求，讓leader繼續(xù)處理數(shù)據(jù)的同步處理會(huì)分兩種情況，這兩種情況下處理方式是不一樣的第一種是leader處理完producer請(qǐng)求之后

7、，follower發(fā)送一個(gè)fetch請(qǐng)求過(guò)來(lái)第二種是follower阻塞在leader指定時(shí)間之內(nèi)，leader副本收到producer的請(qǐng)求。第一種情況生產(chǎn)者發(fā)送一條消息leader處理完producer請(qǐng)求之后，follower發(fā)送一個(gè)fetch請(qǐng)求過(guò)來(lái) 。狀態(tài)圖如下leader副本收到請(qǐng)求以后，會(huì)做幾件事情1. 把消息追加到log文件，同時(shí)更新leader副本的LEO2. 嘗試更新leader HW值。這個(gè)時(shí)候由于follower副本還沒(méi)有發(fā)送fetch請(qǐng)求，那么leader的remote LEO仍然是0。leader會(huì)比較的LEO以及remote LEO的值發(fā)現(xiàn)最小值是0，與HW的值

8、相同，所以更新HWfollower fetch消息follower 發(fā)送fetch請(qǐng)求，leader副本的處理邏輯是:1. log數(shù)據(jù)、更新remote LEO=0(follower還沒(méi)有寫(xiě)入這條消息，這個(gè)值是根據(jù)follower的fetch請(qǐng)求中的oset來(lái)確定的)2. 嘗試更新HW，因?yàn)檫@個(gè)時(shí)候LEO和remoteLEO還是不一致，所以仍然是HW=03. 把消息內(nèi)容和當(dāng)前分區(qū)的HW值發(fā)送給follower副本follower副本收到response以后1. 將消息寫(xiě)入到本地log，同時(shí)更新follower的LEO2. 更新follower HW，本地的LEO和leader返回的HW進(jìn)行比

9、較取小的值，所以仍然是0第一次交互結(jié)束以后，HW仍然還是0，這個(gè)值會(huì)在下一次follower發(fā)起fetch請(qǐng)求時(shí)被更新follower發(fā)第二次fetch請(qǐng)求，leader收到請(qǐng)求以后1. log數(shù)據(jù)2. 更新remote LEO=1，因?yàn)檫@次fetch攜帶的oset是1.3. 更新當(dāng)前分區(qū)的HW，這個(gè)時(shí)候leader LEO和remote LEO都是1，所以HW的值也更新為14. 把數(shù)據(jù)和當(dāng)前分區(qū)的HW值返回給follower副本，這個(gè)時(shí)候如果沒(méi)有數(shù)據(jù)，則返回為空f(shuō)ollower副本收到response以后1. 如果有數(shù)據(jù)則寫(xiě)本地日志，并且更新LEO2. 更新follower的HW值到目前為

10、止，數(shù)據(jù)的同步就完成了，意味著消費(fèi)端能夠消費(fèi)oset=1這條消息。第二種情況前面說(shuō)過(guò)，由于leader副本暫時(shí)沒(méi)有數(shù)據(jù)過(guò)來(lái)，所以follower的fetch會(huì)被阻塞，直到等待超時(shí)或者 leader接收到新的數(shù)據(jù)。當(dāng)leader收到請(qǐng)求以后會(huì)喚醒處于阻塞的fetch請(qǐng)求。處理過(guò)程基本上和前面說(shuō) 的一致1. leader將消息寫(xiě)入本地日志，更新Leader的LEO2. 喚醒follower的fetch請(qǐng)求3. 更新HWkafka使用HW和LEO的方式來(lái)實(shí)現(xiàn)副本數(shù)據(jù)的同步，本身是一個(gè)好的設(shè)計(jì)，但是在這個(gè)地方會(huì)存在一個(gè)數(shù)據(jù)丟失的問(wèn)題，當(dāng)然這個(gè)丟失只出現(xiàn)在特定的背景下。我們回想一下，HW的值是在新的一輪

11、FETCH 中才會(huì)被更新。我們分析下這個(gè)過(guò)程為什么會(huì)出現(xiàn)數(shù)據(jù)丟失數(shù)據(jù)丟失的問(wèn)題前提min.insync.replicas=1 /設(shè)定ISR中的最小副本數(shù)是多少，默認(rèn)值為1（在perties中配置），并且acks參數(shù)設(shè)置為-1（表示需要所有副本確認(rèn)）時(shí)，此參數(shù)才生效.表達(dá)的含義是，至少需要多少個(gè)副本同步才能表示消息是提交的，所以，當(dāng) min.insync.replicas=1 的時(shí)候，一旦消息被寫(xiě)入leader端log即被認(rèn)為是“已提交”，而延遲一輪FETCH RPC更新HW值的設(shè)計(jì)使得follower HW值是異步延遲更新的，倘若在這個(gè)過(guò)程中l(wèi)eader發(fā)生變更，那么成

12、為新leader的follower的HW值就有可能是過(guò)期的，使得clients端認(rèn)為是成功提交的消息被刪除。producer的ackacks配置表示producer發(fā)送消息到broker上以后的確認(rèn)值。有三個(gè)可選項(xiàng)0：表示producer不需要等待broker的消息確認(rèn)。這個(gè)選項(xiàng)時(shí)延最小但同時(shí)風(fēng)險(xiǎn)最大（因?yàn)楫?dāng)server宕機(jī)時(shí)，數(shù)據(jù)將會(huì)丟失）。1：表示producer只需要獲得kafka集群中的leader節(jié)點(diǎn)確認(rèn)即可，這個(gè)選擇時(shí)延較小同時(shí)確保了leader節(jié)點(diǎn)確認(rèn)接收成功。all(-1)：需要ISR中所有的Replica給予接收確認(rèn)，速度最慢，安全性最高，但是由于ISR可能會(huì)縮小到僅包含一

13、個(gè)Replica，所以設(shè)置參數(shù)為all并不能一定避免數(shù)據(jù)丟失，數(shù)據(jù)丟失的解決方案在kafka版本之后，引入了一個(gè)leader epoch來(lái)解決這個(gè)問(wèn)題，所謂的leader epoch實(shí)際上是一對(duì)值（epoch，oset），epoch代表leader的版本號(hào)，從0開(kāi)始遞增，當(dāng)leader發(fā)生過(guò)變更，epoch 就+1，而oset則是對(duì)應(yīng)這個(gè)epoch版本的leader寫(xiě)入第一條消息的oset，比如(0,0), (1,50) ,表示第一個(gè)leader從oset=0開(kāi)始寫(xiě)消息，一共寫(xiě)了50條。第二個(gè)leader版本號(hào)是1，從oset=50開(kāi)始寫(xiě)，這個(gè)信息會(huì)持久化在對(duì)應(yīng)的分區(qū)的本地磁盤(pán)

14、上，文件名是 /tmp/kafka-。leader broker中會(huì)保存這樣一個(gè)緩存，并且定期寫(xiě)入到checkpoint文件中當(dāng)leader寫(xiě)log時(shí)它會(huì)嘗試更新整個(gè)緩存: 如果這個(gè)leader首次寫(xiě)消息，則會(huì)在緩存中增加一個(gè)條目；否則就不做更新。而每次副本重新成為leader時(shí)會(huì)查詢(xún)這部分緩存，獲取出對(duì)應(yīng)leader版本的oset我們基于同樣的情況來(lái)分析，follower宕機(jī)并且恢復(fù)之后，有兩種情況，如果這個(gè)時(shí)候leader副本沒(méi)有掛，也就是意味著沒(méi)有發(fā)生leader選舉，那么follower恢復(fù)之后并不會(huì)去截?cái)嘧约旱娜罩?，而是先發(fā)送一個(gè)OsetsForLeaderEpochRequest

15、請(qǐng)求給到leader副本，leader副本收到請(qǐng)求之后返回當(dāng)前的LEO。如果follower副本的leaderEpoch和leader副本的epoch相同， leader的leo只可能大于或者等于follower副本的leo值，所以這個(gè)時(shí)候不會(huì)發(fā)生截?cái)嗳绻鹒ollower副本和leader副本的epoch值不同，那么leader副本會(huì)查找follower副本傳過(guò)來(lái)的epoch+1在本地文件中存儲(chǔ)的StartOset返回給follower副本，也就是新leader副本的LEO。這樣也避免了數(shù)據(jù)丟失的問(wèn)題如果leader副本宕機(jī)了重新選舉新的leader，那么原本的follower副本就會(huì)變成le

16、ader，意味著epoch 從0變成1，使得原本follower副本中LEO的值的到了保留。Leader副本的選舉過(guò)程1. KafkaController會(huì)監(jiān)聽(tīng)ZooKeeper的/brokers/ids節(jié)點(diǎn)路徑，一旦發(fā)現(xiàn)有broker掛了，執(zhí)行下面的邏輯。這里暫時(shí)先不考慮KafkaController所在broker掛了的情況，KafkaController掛了，各個(gè)broker會(huì)重新leader選舉出新的KafkaController2. leader副本在該broker上的分區(qū)就要重新進(jìn)行l(wèi)eader選舉，目前的選舉策略是a) 優(yōu)先從isr列表中選出第一個(gè)作為leader副本，這個(gè)叫優(yōu)先

17、副本，理想情況下有限副本就是該分區(qū)的leader副本b) 如果isr列表為空，則查看該topic的unclean.leader.election.enable配置。unclean.leader.election.enable：為true則代表允許選用非isr列表的副本作為leader，那么此時(shí)就意味著數(shù)據(jù)可能丟失，為log/topic/leader-epoch-checkpointfalse的話(huà)，則表示不允許，直接拋出NoReplicaOnlineException異常，造成leader副本選舉失敗。c) 如果上述配置為true，則從其他副本中選出一個(gè)作為leader副本，并且isr列表只包

18、含該leader 副本。一旦選舉成功，則將選舉后的leader和isr和其他副本信息寫(xiě)入到該分區(qū)的對(duì)應(yīng)的zk路徑上。消息的存儲(chǔ)消息發(fā)送端發(fā)送消息到broker上以后，消息是如何持久化的呢？那么接下來(lái)去分析下消息的存儲(chǔ)首先我們需要了解的是，kafka是使用日志文件的方式來(lái)保存生產(chǎn)者和發(fā)送者的消息，每條消息都有一個(gè)oset值來(lái)表示它在分區(qū)中的偏移量。Kafka中存儲(chǔ)的一般都是海量的消息數(shù)據(jù)，為了避免日志文件過(guò)大，Log并不是直接對(duì)應(yīng)在一個(gè)磁盤(pán)上的日志文件，而是對(duì)應(yīng)磁盤(pán)上的一個(gè)目錄，這個(gè)目錄的命名規(guī)則是_消息的文件存儲(chǔ)機(jī)制一個(gè)topic的多個(gè)partition在物理磁盤(pán)上的保存路徑，路徑保存在

19、/tmp/kafka-logs/topic_partition，包含日志文件、索引文件和時(shí)間索引文件kafka是通過(guò)分段的方式將Log分為多個(gè)LogSegment，LogSegment是一個(gè)邏輯上的概念，一個(gè)LogSegment對(duì)應(yīng)磁盤(pán)上的一個(gè)日志文件和一個(gè)索引文件，其中日志文件是用來(lái)記錄消息的。索引文件是用來(lái)保存消息的索引。那么這個(gè)LogSegment是什么呢？LogSegment假設(shè)kafka以partition為最小存儲(chǔ)單位，那么我們可以想象當(dāng)kafka producer不斷發(fā)送消息，必然會(huì)引起partition文件的無(wú)線(xiàn)擴(kuò)張，這樣對(duì)于消息文件的維護(hù)以及被消費(fèi)的消息的清理帶來(lái)非常大的挑戰(zhàn)

20、，所以kafka 以segment為單位又把partition進(jìn)行細(xì)分。每個(gè)partition相當(dāng)于一個(gè)巨型文件被平均分配到多個(gè)大小相等的segment數(shù)據(jù)文件中（每個(gè)segment文件中的消息不一定相等），這種特性方便已經(jīng)被消費(fèi)的消息的清理，提高磁盤(pán)的利用率。log.segment.bytes=107370 (設(shè)置分段大小),默認(rèn)是1gb，我們把這個(gè)值調(diào)小以后，可以看到日志分段的效果抽取其中3個(gè)分段來(lái)進(jìn)行分析segment le由2大部分組成，分別為index le和data le，此2個(gè)文件一一對(duì)應(yīng)，成對(duì)出現(xiàn)，后綴.index和“.log”分別表示為segment索引文件、數(shù)據(jù)文件.s

21、egment文件命名規(guī)則：partion全局的第一個(gè)segment從0開(kāi)始，后續(xù)每個(gè)segment文件名為上一個(gè)segment文件最后一條消息的oset值進(jìn)行遞增。數(shù)值最大為64位long大小，20位數(shù)字字符長(zhǎng)度，沒(méi)有數(shù)字用0填充查看segment文件命名規(guī)則通過(guò)下面這條命令可以看到kafka消息日志的內(nèi)容sh kafka-run-class.sh kafka.tools.DumpLogSegments -files /tmp/kafka-logs/test- 0/00000000000000000000.log -print-data-log假如第一個(gè)log文件的最后一個(gè)oset為:5376

22、,所以下一個(gè)segment的文件命名為: 00000000000000005376.log。對(duì)應(yīng)的index為00000000000000005376.indexsegment中index和log的對(duì)應(yīng)從所有分段中，找一個(gè)分段進(jìn)行分析為了提高查找消息的性能，為每一個(gè)日志文件添加2個(gè)索引索引文件：OsetIndex 和 TimeIndex，分別對(duì)應(yīng).index以及.timeindex, TimeIndex索引文件格式：它是時(shí)間戳和相對(duì)oset查看索引內(nèi)容：sh kafka-run-class.sh kafka.tools.DumpLogSegments -files /tmp/kafka-lo

23、gs/test- 0/00000000000000000000.index -print-data-log，index中了索引以及物理偏移量。 log 了消息的內(nèi)容。索引文件的元數(shù)據(jù)執(zhí)行對(duì)應(yīng)數(shù)據(jù)文件中message的物理偏移地址。舉個(gè)簡(jiǎn)單的案例來(lái)說(shuō)，以4053,80899為例，在log文件中，對(duì)應(yīng)的是第4053條，物理偏移量（position）為80899. position是ByteBuer的指針位置在partition中如何通過(guò)oset查找message查找的算法是1. 根據(jù)oset的值，查找segment段中的index索引文件。由于索引文件命名是以上一個(gè)文件的最后一個(gè)oset進(jìn)行命

24、名的，所以，使用二分查找算法能夠根據(jù)oset快速定位到指定的索引文件。2. 找到索引文件后，根據(jù)oset進(jìn)行定位，找到索引文件中的符合范圍的索引。（kafka采用稀疏索引的方式來(lái)提高查找性能）3. 得到position以后，再到對(duì)應(yīng)的log文件中，從position出開(kāi)始查找oset對(duì)應(yīng)的消息，將每條消息的oset與目標(biāo)oset進(jìn)行比較，直到找到消息比如說(shuō)，我們要查找oset=2490這條消息，那么先找到00000000000000000000.index, 然后找到2487,49111這個(gè)索引，再到log文件中，根據(jù)49111這個(gè)position開(kāi)始查找，比較每條消息的oset是否大于等于2

25、490。最后查找到對(duì)應(yīng)的消息以后返回Log文件的消息內(nèi)容分析前面我們通過(guò)kafka提供令，可以查看二進(jìn)制的日志文件，一條消息，會(huì)包含很多的字段。offset: 5371 position: 102124 CreateTime: 1531477349286 isvalid: true keysize:-1 valuesize: 12 magic: 2 compresscodec: NONE producerId: -1 producerEpoch: -1 sequence: -1 isTran ional: false headerKeys: payload: message_5371ose

26、t和position這兩個(gè)前面已經(jīng)講過(guò)了、 createTime表示創(chuàng)建時(shí)間、keysize和valuesize表示key和value的大小、 compresscodec表示壓縮編碼、payload:表示消息的具體內(nèi)容日志的清除策略以及壓縮策略日志清除策略前面提到過(guò)，日志的分段。日志的策略有兩個(gè)1. 根據(jù)消息的保留時(shí)間，當(dāng)消息在kafka中保存的時(shí)間超過(guò)了指定的時(shí)間，就會(huì)觸發(fā) 過(guò)程2. 根據(jù)topic 的數(shù)據(jù)大小，當(dāng)topic所占的日志文件大小大于一定的閥值，則可以開(kāi)始刪除最舊的消息。kafka會(huì)啟動(dòng)一個(gè) 線(xiàn)程，定期檢查是否可以刪除的消息通過(guò)log.retention.bytes和log.

27、retention.hours這兩個(gè)參數(shù)來(lái)設(shè)置，當(dāng)其中任意一個(gè)達(dá)到要求，都會(huì)執(zhí)行刪除。默認(rèn)的保留時(shí)間是：7天日志壓縮策略Kafka還提供了“日志壓縮（Log Compaction）”功能，通過(guò)這個(gè)功能可以有效的減少日志文件的大小，緩解磁盤(pán)緊張的情況，在很多實(shí)際場(chǎng)景中，消息的key和value的值之間的對(duì)應(yīng) 是不斷變化的，就像數(shù)據(jù)庫(kù)中的數(shù)據(jù)會(huì)不斷被修改一樣，消費(fèi)者只關(guān)心key對(duì)應(yīng)的最新的value。因此，我們可以開(kāi)啟kafka 的日志壓縮功能，服務(wù)端會(huì)在啟動(dòng)啟動(dòng)Cleaner線(xiàn)程池，定期將相同的key進(jìn)行合并，只保留最新的value值。日志的壓縮原理是磁盤(pán) 的性能問(wèn)題磁盤(pán) 的性能優(yōu)化我們現(xiàn)在

28、大部分企業(yè)仍然用的是機(jī)械結(jié)構(gòu)的磁盤(pán)，如果把消息以隨機(jī)的方式寫(xiě)入到磁盤(pán)，那么磁盤(pán)首先要做的就是尋址，也就是定位到數(shù)據(jù)所在的物理地址，在磁盤(pán)上就要找到對(duì)應(yīng)的柱面、磁頭以及對(duì)應(yīng)的扇區(qū)；這個(gè)過(guò)程相對(duì)內(nèi)存來(lái)說(shuō)會(huì)消耗大量時(shí)間，為了規(guī)避隨機(jī)讀寫(xiě)帶來(lái)的時(shí)間消耗，kafka采用順序?qū)懙姆绞?數(shù)據(jù)。即使是這樣，但是頻繁的I/O操作仍然會(huì)造成磁盤(pán)的性能瓶頸零拷貝消息從發(fā)送到落地保存，broker維護(hù)的消息日志本身就是文件目錄，每個(gè)文件都是二進(jìn)制保存，生產(chǎn)者和消費(fèi)者使用相同的格式來(lái)處理。在消費(fèi)者獲取消息時(shí)，服務(wù)器先從硬盤(pán) 數(shù)據(jù)到內(nèi)存，然后把內(nèi)存中的數(shù)據(jù)原封不動(dòng)的通過(guò)socket發(fā)送給消費(fèi)者。雖然這個(gè)操作描述起來(lái)很簡(jiǎn)單

29、，但實(shí)際上經(jīng)歷了很多步驟。操作系統(tǒng)將數(shù)據(jù)從磁盤(pán)讀入到內(nèi)核空間的頁(yè)緩存，一方面能夠減少單個(gè)文件內(nèi)容的大小，另一方面，方便kafka進(jìn)行日志應(yīng)用程序?qū)?shù)據(jù)從內(nèi)核空間讀入到用戶(hù)空間緩存中應(yīng)用程序?qū)?shù)據(jù)寫(xiě)回到內(nèi)核空間到socket緩存中操作系統(tǒng)將數(shù)據(jù)從socket緩沖區(qū) 到網(wǎng)卡緩沖區(qū)，以便將數(shù)據(jù)經(jīng)網(wǎng)絡(luò)發(fā)出通過(guò)“零拷貝”技術(shù)，可以去掉這些沒(méi)必要的數(shù)據(jù) 操作，同時(shí)也會(huì)減少上下文切換次數(shù)。現(xiàn)代的unix 操作系統(tǒng)提供一個(gè)優(yōu)化的代碼路徑，用于將數(shù)據(jù)從頁(yè)緩存?zhèn)鬏數(shù)絪ocket；在Linux中，是通過(guò)sendle系統(tǒng)調(diào)用來(lái)完成的。Java提供了這個(gè)系統(tǒng)調(diào)用的：FileChannel.transferTo

30、 API使用sendle，只需要一次拷貝就行，操作系統(tǒng)將數(shù)據(jù)直接從頁(yè)緩存發(fā)送到網(wǎng)絡(luò)上。所以在這個(gè)優(yōu)化的路徑中，只有最數(shù)據(jù)拷貝到網(wǎng)卡緩存中是需要的頁(yè)緩存頁(yè)緩存是操作系統(tǒng)實(shí)現(xiàn)的一種主要的磁盤(pán)緩存，但凡設(shè)計(jì)到緩存的，基本都是為了提升i/o性能，所以頁(yè) 緩存是用來(lái)減少磁盤(pán)I/O操作的。磁盤(pán)高速緩存有兩個(gè)重要因素：第一，磁盤(pán)的速度要遠(yuǎn)低于內(nèi)存的速度，若從處理器L1和L2高速緩存則速度更快。第二，數(shù)據(jù)一旦被，就很有可能短時(shí)間內(nèi)再次。正是由于基于內(nèi)存比磁盤(pán)快的多，所以磁盤(pán)的內(nèi)存緩存將給系統(tǒng)性能帶來(lái)質(zhì)的飛越。當(dāng) 一個(gè)進(jìn)程準(zhǔn)備磁盤(pán)上的文件內(nèi)容時(shí)，操作系統(tǒng)會(huì)先查的數(shù)據(jù)所在的頁(yè)(page)是否在頁(yè)緩存(pagecache)中，如果（命中）則直接返回?cái)?shù)據(jù)，從而避免了對(duì)物理磁盤(pán)的I/0操作；如果沒(méi)有命中，則操作系統(tǒng)會(huì)向磁盤(pán)發(fā)起請(qǐng)求并將的數(shù)據(jù)頁(yè)存入頁(yè)緩存，之后再將數(shù)據(jù)返回給進(jìn)程。同樣，如果一個(gè)進(jìn)程需要將數(shù)據(jù)寫(xiě)入磁盤(pán)，那么操作系統(tǒng)也會(huì)檢測(cè)數(shù)據(jù)對(duì)應(yīng)的頁(yè)是否在頁(yè)緩存中，如果不，則會(huì)先在頁(yè)緩存中添加相應(yīng)

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

課程筆記分布式消息通訊之kafka的實(shí)現(xiàn)原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔