以太坊源碼學習啟動篇_以太坊是什麼以太坊與區塊鏈有什麼關系

1. 以太坊是什麼以太坊與區塊鏈有什麼關系

以太坊是一個全新開放的區塊鏈平台，它允許任何人在平台中建立和使用通過區塊鏈技術運行的去中心化應用。就像比特幣一樣，以太坊不受任何人控制，也不歸任何人所有——它是一個開放源代碼項目，由全球范圍內的很多人共同創建。

和比特幣協議有所不同的是，以太坊的設計十分靈活，極具適應性。在以太坊平台上創立新的應用十分簡便，任何人都可以安全地使用該平台上的應用。

以太坊是可編程的區塊鏈。它並不是給用戶一系列預先設定好的操作（例如比特幣交易），而是允許用戶按照自己的意願創建復雜的操作。這樣一來，它就可以作為多種類型去中心化區塊鏈應用的平台，包括加密貨幣在內但並不僅限於此。

以太坊狹義上是指一系列定義去中心化應用平台的協議，它的核心是以太坊虛擬機（「EVM」），可以執行任意復雜演算法的編碼。在計算機科學術語中，以太坊是「圖靈完備的」。開發者能夠使用現有的JavaScript和Python等語言為模型的其他友好的編程語言，創建出在以太坊模擬機上運行的應用。

和其他區塊鏈一樣，以太坊也有一個點對點網路協議。以太坊區塊鏈資料庫由眾多連接到網路的節點來維護和更新。每個網路節點都運行著以太坊模擬機並執行相同的指令。因此，人們有時形象地稱以太坊為「世界電腦」。

這個貫穿整個以太坊網路的大規模並行運算並不是為了使運算更高效。實際上，這個過程使得在以太坊上的運算比在傳統「電腦」上更慢更昂貴。然而，每個以太坊節點都運行著以太坊虛擬機是為了保持整個區塊鏈的一致性。去中心化的一致使以太坊有極高的故障容錯性，保證零停機，而且可以使存儲在區塊鏈上的數據保持永遠不變且抗審查。

以太坊平台本身沒有特點，沒有價值性。和編程語言相似，它由企業家和開發者決定其用途。不過很明顯，某些應用類型較之其他更能從以太坊的功能中獲益。以太坊尤其適合那些在點與點之間自動進行直接交互或者跨網路促進小組協調活動的應用。

例如，協調點對點市場的應用，或是復雜財務合同的自動化。比特幣使個體能夠不藉助金融機構、銀行或政府等其他中介來進行貨幣交換。以太坊的影響可能更為深遠。

理論上，任何復雜的金融活動或交易都能在以太坊上用編碼自動且可靠地進行。除金融類應用外，任何對信任、安全和持久性要求較高的應用場景——比如資產注冊、投票、管理和物聯網——都會大規模地受到以太坊平台影響。

2. 以太坊源碼分析--p2p節點發現

節點發現功能主要涉及 Server Table udp 這幾個數據結構，它們有獨自的事件響應循環，節點發現功能便是它們互相協作完成的。其中，每個以太坊客戶端啟動後都會在本地運行一個 Server ，並將網路拓撲中相鄰的節點視為 Node ，而 Table 是 Node 的容器， udp 則是負責維持底層的連接。下面重點描述它們中重要的欄位和事件循環處理的關鍵部分。

PrivateKey - 本節點的私鑰，用於與其他節點建立時的握手協商
Protocols - 支持的所有上層協議
StaticNodes - 預設的靜態 Peer ，節點啟動時會首先去向它們發起連接，建立鄰居關系
newTransport - 下層傳輸層實現，定義握手過程中的數據加密解密方式，默認的傳輸層實現是用 newRLPX() 創建的 rlpx ，這不是本文的重點
ntab - 典型實現是 Table ，所有 peer 以 Node 的形式存放在 Table
ourHandshake - 與其他節點建立連接時的握手信息，包含本地節點的版本號以及支持的上層協議
addpeer －連接握手完成後，連接過程通過這個通道通知 Server

Server 的監聽循環，啟動底層監聽socket，當收到連接請求時，Accept後調用 setupConn() 開始連接建立過程

Server的主要事件處理和功能實現循環

Node 唯一表示網路上的一個節點

IP - IP地址
UDP/TCP - 連接使用的UDP/TCP埠號
ID - 以太坊網路中唯一標識一個節點，本質上是一個橢圓曲線公鑰(PublicKey)，與 Server 的 PrivateKey 對應。一個節點的IP地址不一定是固定的，但ID是唯一的。
sha - 用於節點間的距離計算

Table 主要用來管理與本節點與其他節點的連接的建立更新刪除

bucket - 所有 peer 按與本節點的距離遠近放在不同的桶(bucket)中，詳見之後的 節點維護
refreshReq - 更新 Table 請求通道

Table 的主要事件循環，主要負責控制 refresh 和 revalidate 過程。
refresh.C - 定時(30s)啟動Peer刷新過程的定時器
refreshReq - 接收其他線程投遞到 Table 的 刷新Peer連接 的通知，當收到該通知時啟動更新，詳見之後的 更新鄰居關系
revalidate.C - 定時重新檢查以連接節點的有效性的定時器，詳見之後的 探活檢測

udp 負責節點間通信的底層消息控制，是 Table 運行的 Kademlia 協議的底層組件

conn - 底層監聽埠的連接
addpending － udp 用來接收 pending 的channel。使用場景為：當我們向其他節點發送數據包後(packet)後可能會期待收到它的回復，pending用來記錄一次這種還沒有到來的回復。舉個例子，當我們發送ping包時，總是期待對方回復pong包。這時就可以將構造一個pending結構，其中包含期待接收的pong包的信息以及對應的callback函數，將這個pengding投遞到udp的這個channel。 udp 在收到匹配的pong後，執行預設的callback。
gotreply - udp 用來接收其他節點回復的通道，配合上面的addpending，收到回復後，遍歷已有的pending鏈表，看是否有匹配的pending。
Table - 和 Server 中的ntab是同一個 Table

udp 的處理循環，負責控制消息的向上遞交和收發控制

udp 的底層接受數據包循環，負責接收其他節點的 packet

以太坊使用 Kademlia 分布式路由存儲協議來進行網路拓撲維護，了解該協議建議先閱讀易懂分布式。更權威的資料可以查看 wiki 。總的來說該協議：

源碼中由 Table 結構保存所有 bucket ， bucket 結構如下

節點可以在 entries 和 replacements 互相轉化，一個 entries 節點如果 Validate 失敗，那麼它會被原本將一個原本在 replacements 數組的節點替換。

有效性檢測就是利用 ping 消息進行探活操作。 Table.loop() 啟動了一個定時器（0~10s），定期隨機選擇一個bucket，向其 entries 中末尾的節點發送 ping 消息，如果對方回應了 pong ，則探活成功。

Table.loop() 會定期（定時器超時）或不定期（收到refreshReq）地進行更新鄰居關系（發現新鄰居），兩者都調用 doRefresh() 方法，該方法對在網路上查找離自身和三個隨機節點最近的若干個節點。

Table 的 lookup() 方法用來實現節點查找目標節點，它的實現就是 Kademlia 協議，通過節點間的接力，一步一步接近目標。

當一個節點啟動後，它會首先向配置的靜態節點發起連接，發起連接的過程稱為 Dial ，源碼中通過創建 dialTask 跟蹤這個過程

dialTask表示一次向其他節點主動發起連接的任務

在 Server 啟動時，會調用 newDialState() 根據預配置的 StaticNodes 初始化一批 dialTask ，並在 Server.run() 方法中，啟動這些這些任務。

Dial 過程需要知道目標節點( dest )的IP地址，如果不知道的話，就要先使用 recolve() 解析出目標的IP地址，怎麼解析？就是先要用藉助 Kademlia 協議在網路中查找目標節點。

當得到目標節點的IP後，下一步便是建立連接，這是通過 dialTask.dial() 建立連接

連接建立的握手過程分為兩個階段，在在 SetupConn() 中實現
第一階段為 ECDH密鑰建立：

第二階段為協議握手,互相交換支持的上層協議

如果兩次握手都通過，dialTask將向 Server 的 addpeer 通道發送 peer 的信息

3. 以太坊虛擬機(EVM)是什麼

以太坊是一個可編程的區塊鏈。與比特幣不同，以太坊並沒有給用戶提供一組預定義的操作（比如比特幣交易），而是允許用戶創建他們自己的操作，這些操作可以任意復雜。這樣，以太坊成為了多種不同類型去中心化區塊鏈的平台，包括但是不限於密碼學貨幣。

EVM為以太坊虛擬機。以太坊底層通過EVM模塊支持智能合約的執行和調用，調用時根據合約的地址獲取到代碼，生成具體的執行環境，然後將代碼載入到EVM虛擬機中運行。通常目前開發智能合約的高級語言為Solidity,在利用solidity實現智能合約邏輯後，通過編譯器編譯成元數據（位元組碼）最後發布到以坊上。

EVM架構概述

EVM本質上是一個堆棧機器，它最直接的的功能是執行智能合約，根據官方給出的設計原理，EVM的主要的設計目標為如下幾點：

簡單性
確定性
空間節省
為區塊鏈服務
安全性保證
便於優化

針對以上幾點通過對EVM源代碼的閱讀來了解其具體的設計思想和工程實用性。

EVM存儲系統機器位寬

EVM機器位寬為256位，即32個位元組，256位機器字寬不同於我們經常見到主流的64位的機器字寬，這就標明EVM設計上將考慮一套自己的關於操作，數據，邏輯控制的指令編碼。目前主流的處理器原生的支持的計算數據類型有：8bits整數，16bits整數，32bits整數，64bits整數。一般情況下寬位元組的計算將更加的快一些，因為它可能包含更多的指令被一次性載入到pc寄存器中，同時伴有內存訪問次數的減少。目前在X86的架構中8bits的計算並不是完全的支持（除法和乘法），但基本的數學運算大概在幾個時鍾周期內就能完成，也就是說主流的位元組寬度基本上處理器能夠原生的支持，那為什麼EVM要採用256位的字寬。主要從以下兩個方面考慮：

時間，智能合約是否能執行得更快
空間，這樣是否整體位元組碼的大小會有所減少
gas成本

時間上主要體現在執行的效率上，我們以兩個整型數相加來對比具體的操作時間消耗。32bits相加的X86

的匯編代碼

mov eax, dword [9876ABCD] //將地址9876ABCD中的32位數據放入eax數據寄存器

add eax, dword [1234DCBA] //將1234DCBA地址指向32位數和eax相加,結果保存在eax中

64bits相加的X86匯編代碼

mov rax, qword [123456789ABCDEF1] //將地址指向的64位數據放入64位寄存器

add rax, qword [1020304050607080] //計算相加的結果並將結果放入到64位寄存器中

鏈喬教育在線旗下學碩創新區塊鏈技術工作站是中國教育部學校規劃建設發展中心開展的「智慧學習工場2020-學碩創新工作站」唯一獲準的「區塊鏈技術專業」試點工作站。專業站立足為學生提供多樣化成長路徑，推進專業學位研究生產學研結合培養模式改革，構建應用型、復合型人才培養體系。

4. 學習區塊鏈我們需要了解什麼

首先需要了解網路通信方面的相關內容，其次是數據儲存、加密技術、共識機制和安全技術，最後是跨鏈技術和鏈下技術。個人認為要學習區塊鏈應該從實踐出發，如果是程序員可以去區塊鏈相關的公司接觸相關的業務，在工作中學習。我之前在煊凌科技工作，公司在區塊鏈開發方面的實力和經驗都很不錯，不管是工作還是合作都是不錯的對象。
從名字上可以看出「區塊鏈」是由「區塊」和「鏈」組成的。一個個的區塊（數據塊）通過某種方式連接在一起就形成了一個區塊鏈。

區塊數據包含哪些呢？通過什麼方式連接在一起呢？

可以看到區塊中包含區塊頭和前個區塊頭的哈希值，這樣就確定了所有的區塊可以按照一定的順序鏈接在一起。其中哈希值是按照哈希加密的函數來實現的。在C/C++語言中有指針這個概念：指針就是地址，一塊內存數據在內存中的地址。區塊鏈也是根據類似的概念把每個區塊的哈希值作為下一個區塊的地址。

什麼是哈希值？

哈希值就是一組數據的「摘要」，是通過哈希加密演算法生成的一組字元串。而且秘鑰有一組秘鑰，公鑰和撕咬，公鑰提供給外界來加密數據，用來解密數據。通過公鑰加密好的數據，只能通過私鑰來解密，即使別人有拿到數據有公鑰也無法解密數據。這樣就保證了數據安全性。私鑰也可以作為這個節點的唯一身份驗證，這樣就保證了每個節點的隱私，實現了匿名。如果其中一個節點修改了其中的某部分數據，那麼這個區塊的哈希值就會發生變化，從而導致後面的所有區塊都會發生變化，當這個區塊把修改好的數據通知其他區塊時，其他的區塊發現發過的數據與自己保存的數據不一致，就拒絕接受數據寫入自己的賬本中。從而保證了數據的一致性。

什麼是去中心化？

通常大家所有的QQ、微信等，都是有一個後台伺服器的，統一的處理各個手機傳過來的數據，通過伺服器統一來處理。區塊鏈技術就是取消統一的伺服器處理，每個節點即使客戶端又是伺服器。當某個節點通過網路發送數據後，其餘的節點接收到數據然後通過一系列的驗證，確認數據沒有問題後，寫入到自己的區塊中。這個節點就是伺服器，其他節點就是客戶端。同樣的，當這個節點接收到數據後，其他某個節點就是伺服器，這個節點就是客戶端。這樣做的好處就是去除了伺服器，每個節點可以獨立的處理數據，節約成本。

如何保持數據一致性？

所謂數據一致性就是所有節點的數據或者狀態在同一時刻保持一致。區塊鏈的本質是一個分布式的應用軟體，如果是中心化的場景，達成一致是不成問題的，因為只有個數據備份。分布式環境中，是通過網路來傳遞數據，而且在網路環境中可能是不可靠的、延時甚至出現故障、關機重啟等各種各樣影響數據一致情況。

FLP定理 :不要浪費時間去為了非同步分布式系統設計在任意場景下都能實現共識的演算法，在允許節點失效的情況下，純粹非同步系統無法確保一致性在有限的時間完成。

CAP定理：分布式計算系統不可能同時確保一致性、可用性和分區容錯性，這三者不可能兼得。

5. 【深度知識】以太坊數據序列化RLP編碼/解碼原理

RLP(Recursive Length Prefix)，中文翻譯過來叫遞歸長度前綴編碼，它是以太坊序列化所採用的編碼方式。RLP主要用於以太坊中數據的網路傳輸和持久化存儲。

對象序列化方法有很多種，常見的像JSON編碼，但是JSON有個明顯的缺點：編碼結果比較大。例如有如下的結構：

變數s序列化的結果是{"name":"icattlecoder","sex":"male"},字元串長度35，實際有效數據是icattlecoder 和male，共計16個位元組，我們可以看到JSON的序列化時引入了太多的冗餘信息。假設以太坊採用JSON來序列化，那麼本來50GB的區塊鏈可能現在就要100GB，當然實際沒這么簡單。

所以，以太坊需要設計一種結果更小的編碼方法。

RLP編碼的定義只處理兩類數據：一類是字元串（例如位元組數組），一類是列表。字元串指的是一串二進制數據，列表是一個嵌套遞歸的結構，裡面可以包含字元串和列表，例如["cat",["puppy","cow"],"horse",[[]],"pig",[""],"sheep"]就是一個復雜的列表。其他類型的數據需要轉成以上的兩類，轉換的規則不是RLP編碼定義的，可以根據自己的規則轉換，例如struct可以轉成列表，int可以轉成二進制（屬於字元串一類），以太坊中整數都以大端形式存儲。

從RLP編碼的名字可以看出它的特點：一個是遞歸，被編碼的數據是遞歸的結構，編碼演算法也是遞歸進行處理的；二是長度前綴，也就是RLP編碼都帶有一個前綴，這個前綴是跟被編碼數據的長度相關的，從下面的編碼規則中可以看出這一點。

對於值在[0, 127]之間的單個位元組，其編碼是其本身。

例1：a的編碼是97。

如果byte數組長度l <= 55，編碼的結果是數組本身，再加上128+l作為前綴。

例2：空字元串編碼是128，即128 = 128 + 0。

例3：abc編碼結果是131 97 98 99，其中131=128+len("abc")，97 98 99依次是a b c。

如果數組長度大於55，編碼結果第一個是183加數組長度的編碼的長度，然後是數組長度的本身的編碼，最後是byte數組的編碼。

請把上面的規則多讀幾篇，特別是數組長度的編碼的長度。

例4：編碼下面這段字元串：

The length of this sentence is more than 55 bytes, I know it because I pre-designed it
這段字元串共86個位元組，而86的編碼只需要一個位元組，那就是它自己，因此，編碼的結果如下：

184 86 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
其中前三個位元組的計算方式如下：

184 = 183 + 1，因為數組長度86編碼後僅佔用一個位元組。
86即數組長度86
84是T的編碼
例5：編碼一個重復1024次"a"的字元串，其結果為：185 4 0 97 97 97 97 97 97 ...。
1024按 big endian編碼為004 0，省略掉前面的零，長度為2，因此185 = 183 + 2。

規則1~3定義了byte數組的編碼方案，下面介紹列表的編碼規則。在此之前，我們先定義列表長度是指子列表編碼後的長度之和。

如果列表長度小於55，編碼結果第一位是192加列表長度的編碼的長度，然後依次連接各子列表的編碼。

注意規則4本身是遞歸定義的。
例6：["abc", "def"]的編碼結果是200 131 97 98 99 131 100 101 102。
其中abc的編碼為131 97 98 99,def的編碼為131 100 101 102。兩個子字元串的編碼後總長度是8，因此編碼結果第一位計算得出：192 + 8 = 200。

如果列表長度超過55，編碼結果第一位是247加列表長度的編碼長度，然後是列表長度本身的編碼，最後依次連接各子列表的編碼。

規則5本身也是遞歸定義的，和規則3相似。

例7：

["The length of this sentence is more than 55 bytes, ", "I know it because I pre-designed it"]
的編碼結果是:

248 88 179 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 163 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
其中前兩個位元組的計算方式如下：

248 = 247 +1
88 = 86 + 2，在規則3的示例中，長度為86，而在此例中，由於有兩個子字元串，每個子字元串本身的長度的編碼各佔1位元組，因此總共佔2位元組。
第3個位元組179依據規則2得出179 = 128 + 51
第55個位元組163同樣依據規則2得出163 = 128 + 35

例8：最後我們再來看個稍復雜點的例子以加深理解遞歸長度前綴，

["abc",["The length of this sentence is more than 55 bytes, ", "I know it because I pre-designed it"]]
編碼結果是：

248 94 131 97 98 99 248 88 179 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 163 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
列表第一項字元串abc根據規則2，編碼結果為131 97 98 99,長度為4。
列表第二項也是一個列表項：

["The length of this sentence is more than 55 bytes, ", "I know it because I pre-designed it"]
根據規則5，結果為

248 88 179 84 104 101 32 108 101 110 103 116 104 32 111 102 32 116 104 105 115 32 115 101 110 116 101 110 99 101 32 105 115 32 109 111 114 101 32 116 104 97 110 32 53 53 32 98 121 116 101 115 44 32 163 73 32 107 110 111 119 32 105 116 32 98 101 99 97 117 115 101 32 73 32 112 114 101 45 100 101 115 105 103 110 101 100 32 105 116
長度為90，因此，整個列表的編碼結果第二位是90 + 4 = 94, 佔用1個位元組，第一位247 + 1 = 248

以上5條就是RPL的全部編碼規則。

各語言在具體實現RLP編碼時，首先需要將對像映射成byte數組或列表兩種形式。以go語言編碼struct為例，會將其映射為列表，例如Student這個對象處理成列表["icattlecoder","male"]

如果編碼map類型，可以採用以下列表形式：

[["",""],["",""],["",""]]

解碼時，首先根據編碼結果第一個位元組f的大小，執行以下的規則判斷：

1.如果f∈ [0,128),那麼它是一個位元組本身。

2.如果f∈[128,184)，那麼它是一個長度不超過55的byte數組，數組的長度為 l=f-128

3.如果f∈[184,192)，那麼它是一個長度超過55的數組，長度本身的編碼長度ll=f-183,然後從第二個位元組開始讀取長度為ll的bytes，按照BigEndian編碼成整數l，l即為數組的長度。

4.如果f∈(192,247]，那麼它是一個編碼後總長度不超過55的列表，列表長度為l=f-192。遞歸使用規則1~4進行解碼。

5.如果f∈(247,256]，那麼它是編碼後長度大於55的列表，其長度本身的編碼長度ll=f-247,然後從第二個位元組讀取長度為ll的bytes,按BigEndian編碼成整數l，l即為子列表長度。然後遞歸根據解碼規則進行解碼。

以上解釋了什麼叫遞歸長度前綴編碼，這個名字本身很好的解釋了編碼規則。

（1）以太坊源碼學習—RLP編碼( https://segmentfault.com/a/1190000011763339 )
（2）簡單分析RLP編碼原理
( https://blog.csdn.net/itchosen/article/details/78183991 )

導航:首頁 > 源碼編譯 > 以太坊源碼學習啟動篇

以太坊源碼學習啟動篇

與以太坊源碼學習啟動篇相關的資料