1. 《Kafka權威指南》epub下載在線閱讀,求百度網盤雲資源
《Kafka權威指南》(Neha Narkhede)電子書網盤下載免費在線閱讀
鏈接:https://pan..com/s/1W9h1TKqQhT_LLwWls-D98A
書名:Kafka權威指南
作者:Neha Narkhede
譯者:薛命燈
豆瓣評分:8.5
出版社:人民郵電出版社
出版年份:2017-12-26
頁數:214
內容簡介:
每個應用程序都會產生數據,包括日誌消息、度量指標、用戶活動記錄、響應消息等。如何移動數據,幾乎變得與數據本身一樣重要。如果你是架構師、開發者或者產品工程師,同時也是Apache Kafka新手,那麼這本實踐指南將會幫助你成為流式平台上處理實時數據的專家。
本書由出身於LinkedIn的Kafka核心作者和一線技術人員共同執筆,詳細介紹了如何部署Kafka集群、開發可靠的基於事件驅動的微服務,以及基於Kafka平台構建可伸縮的流式應用程序。通過詳盡示例,你將會了解到Kafka的設計原則、可靠性保證、關鍵API,以及復制協議、控制器和存儲層等架構細節。
● 了解發布和訂閱消息模型以及該模型如何被應用在大數據生態系統中
● 學習使用Kafka生產者和消費者來生成消息和讀取消息
● 了解Kafka保證可靠性數據傳遞的模式和場景需求
● 使用Kafka構建數據管道和應用程序的最佳實踐
● 在生產環境中管理Kafka,包括監控、調優和維護
● 了解Kafka的關鍵度量指標
● 探索Kafka如何成為流式處理利器
作者簡介:
Neha Narkhede, Confluent聯合創始人、CTO,曾在LinkedIn主導基於Kafka和Apache Samza構建流式基礎設施,是Kafka作者之一。
Gwen Shapira, Confluent系統架構師,幫助客戶構建基於Kafka的系統,在可伸縮數據架構方面擁有十餘年經驗;曾任Cloudera公司解決方案架構師。另著有《Hadoop應用架構》。
Todd Palino, LinkedIn主任級SRE,負責部署管理大型的Kafka、Zookeeper和Samza集群。
2. kafka 提交offset
每次調用poll()方法,它總是返回由生產者寫入kafka但還沒有被消費者讀取過的記錄,我們因此可以追溯到哪些記錄是被群組里的那個消費者讀取的。之前已經討論過,Kafka不會像其他的JMS隊列那樣需要得到消費者的確認,這是kafka的一個獨特之處。相反,消費者可以使用kafka來追蹤消息在分區的位置(偏移量)
那麼消費者是如何提交offset的呢?consumer 往一個叫做_consumer_offset的特殊主題發送消息,消息裡麵包含每個分區的偏移量。如果消費者一直處於運行狀態,那麼偏移量就沒有什麼用處。不過,如果消費者發生崩潰或者有新的消費者加入群組,就會觸發rebanlance(再均衡),完成在均衡之後,每個消費者可能分配到新的分區,而不是之前處理的那個,為了能夠繼續之前的工作,消費者需要讀取每個分區最後一次提交的偏移量,然後從偏移量指定的地方繼續處理。
Q1 如果提交的偏移量小於客戶端處理的最後一個消息的offset,則兩者之間的數據就會被重復消費。
Q2 如果提交的偏移量大於客戶端處理的最後一個消息的offset,則兩者職期間的數據就會丟失。
所以,偏移量的提交對客戶端有很大的影響。
最簡單的方式就是consumer自動提交offset,如果enable.auto.commit =true,那麼每過5s,consumer會自動把poll()方法接收到的最大offset提交上去。提交時間間隔由auto.commit.interval.ms 控制,默認是 5s.與消費者里其他的東西一樣,自動提交也是在輪詢里進行的。consumer每次在進行查詢的時候回檢查是否該提交偏移量了,如果是,那麼就會提交從上一次輪詢返回的偏移量。
不過, 在使用這種漸變的方式之前,需要知道它將會帶來怎樣的後果。
假設我們使用默認的5s提交時間間隔,在最近一次提交之後的3是,發生了在均衡,在均衡之後,消費者從最後一次提交的offset的位置開始讀取消息,這個時候offset已經落後了3s,所以在這3s到達的消息會被重復處理。可以通過修改提交時間來頻繁的提交offset,減少可能出現重復消息的時間窗,不過這種情況是無法完全避免的。
處理完當前批次的消息,在輪詢更多的消息之前,調用commitSync方法提交當前批次最新的offset
只要沒有發生不可恢復的錯誤,commitSync()會一直嘗試直至提交成功,如果提交失敗,我們也只能把異常記錄到日誌里。
提交一個offset,然後繼續做其他事情,如果提交失敗,錯誤信息和偏移量會被記錄下來。commitAsync和commitSync不同在於,它不會一直重試,是因為有可能在它收到伺服器響應之前,可能有一個更大的offset已經提交成功。另外commitAsync支持回調。
本文摘自kafka權威指南
3. 《Kafka權威指南》pdf下載在線閱讀,求百度網盤雲資源
《Kafka權威指南》(Neha Narkhede)電子書網盤下載免費在線閱讀
鏈接:https://pan..com/s/17wJr53y7UtHbj-H7Y2H-4w
書名:Kafka權威指南
作者:Neha Narkhede
譯者:薛命燈
豆瓣評分:8.5
出版社:人民郵電出版社
出版年份:2017-12-26
頁數:214
內容簡介:
每個應用程序都會產生數據,包括日誌消息、度量指標、用戶活動記錄、響應消息等。如何移動數據,幾乎變得與數據本身一樣重要。如果你是架構師、開發者或者產品工程師,同時也是Apache Kafka新手,那麼這本實踐指南將會幫助你成為流式平台上處理實時數據的專家。
本書由出身於LinkedIn的Kafka核心作者和一線技術人員共同執筆,詳細介紹了如何部署Kafka集群、開發可靠的基於事件驅動的微服務,以及基於Kafka平台構建可伸縮的流式應用程序。通過詳盡示例,你將會了解到Kafka的設計原則、可靠性保證、關鍵API,以及復制協議、控制器和存儲層等架構細節。
● 了解發布和訂閱消息模型以及該模型如何被應用在大數據生態系統中
● 學習使用Kafka生產者和消費者來生成消息和讀取消息
● 了解Kafka保證可靠性數據傳遞的模式和場景需求
● 使用Kafka構建數據管道和應用程序的最佳實踐
● 在生產環境中管理Kafka,包括監控、調優和維護
● 了解Kafka的關鍵度量指標
● 探索Kafka如何成為流式處理利器
作者簡介:
Neha Narkhede, Confluent聯合創始人、CTO,曾在LinkedIn主導基於Kafka和Apache Samza構建流式基礎設施,是Kafka作者之一。
Gwen Shapira, Confluent系統架構師,幫助客戶構建基於Kafka的系統,在可伸縮數據架構方面擁有十餘年經驗;曾任Cloudera公司解決方案架構師。另著有《Hadoop應用架構》。
Todd Palino, LinkedIn主任級SRE,負責部署管理大型的Kafka、Zookeeper和Samza集群。
【譯者簡介】
薛命燈,畢業於廈門大學軟體學院,十餘年軟體開發和架構經驗,InfoQ高級社區編輯。譯有《矽谷革命》《生產微服務》等書。微信公眾號CodeDeep。