編譯llvm依賴_如何利用LLVM寫一個編譯器

1. 如何使用ninja快速編譯LLVM和Clang

1，Build llvm/clang/lldb/lld 3.5.0等組件

1.0 准備：

至少需要從llvm.org下載llvm, cfe, lldb, compiler-rt,lld等3.5.0版本的代碼。

$tar xf llvm-3.5.0.src.tar.gz

$cd llvm-3.5.0.src

$mkdir -p tools/clang
$mkdir -p tools/clang/tools/extra
$mkdir -p tools/lld
$mkdir -p projects/compiler-rt

$tar xf cfe-3.5.0.src.tar.xz -C tools/clang --strip-components=1
$tar xf compiler-rt-3.5.0.src.tar.xz -C projects/compiler-rt --strip-components=1
$tar xf lldb-3.5.0.src.tar.xz -C tools/clang/tools/extra --strip-components=1
$tar xf lld-3.5.0.src.tar.xz -C tools/lld --strip-components=1
1.1 【可選】使用clang --stdlib=libc++時，自動添加-lc++abi。

libc++組件可以使用gcc libstdc++的supc++ ABI，也可以使用c++abi，cxxrt等，實際上自動添加-lc++abi是不必要的，這里這么處理，主要是為了方便起見。實際上完全可以在「clang++ -stdlib=libc++」時再手工添加-lc++abi給鏈接器。

這里涉及到鏈接時DSO隱式還是顯式的問題，早些時候ld在鏈接庫時會自動引入由庫引入的依賴動態庫，後來因為這個行為的不可控性，所以ld鏈接器的行為做了修改，需要顯式的寫明所有需要鏈接的動態庫，才會有手工添加-lc++abi這種情況出現。

2. 如何利用LLVM寫一個編譯器

書籍請參考編譯原理的龍書，以及flex，bison，llvm的manual。
如何寫我可以給你一個大致的流程，
編譯器由詞法分析器->語法分析器->中間代碼生成器->後端組成。
用C語言寫編譯器一般可以按照以下步驟：
1.使用flex生成詞法分析器。（flex可以通過自己編寫的描述文件來自動生成詞法分析器）
2.使用bison生成語法分析器。（bison可以通過自己編寫的描述文件來自動生成語法分析器）
3.通過語法分析器得到輸入代碼的語法樹表示。
4.編寫遍歷函數遍歷語法樹生成中間代碼。（這里推薦使用LLVM的中間代碼表示）
5.利用LLVM工具集來編譯執行所得到的中間代碼。

3. 編譯器二：LLVM和GCC的區別

GCC: GNU Compiler Collection
GCC屬於傳統編譯器，傳統編譯器的工作原理基本上都是三段式的，可以分為前端（Frontend）、優化器（Optimizer）、後端（Backend）。前端負責解析源代碼，檢查語法錯誤，並將其翻譯為抽象的語法樹（Abstract Syntax Tree）。優化器對這一中間代碼進行優化，試圖使代碼更高效。後端則負責將優化器優化後的中間代碼轉換為目標機器的代碼，這一過程後端會最大化的利用目標機器的特殊指令，以提高代碼的性能。
事實上，不光靜態語言如此，動態語言也符合上面這個模型，例如Java。Java Virtual Machine也利用上面這個模型，將Java代碼翻譯為Java bytecode。這一模型的好處是，當我們要支持多種語言時，只需要添加多個前端就可以了。當需要支持多種目標機器時，只需要添加多個後端就可以了。對於中間的優化器，我們可以使用通用的中間代碼。
這種三段式的結構還有一個好處，開發前端的人只需要知道如何將源代碼轉換為優化器能夠理解的中間代碼就可以了，他不需要知道優化器的工作原理，也不需要了解目標機器的知識。這大大降低了編譯器的開發難度，使更多的開發人員可以參與進來。
雖然這種三段式的編譯器有很多有點，並且被寫到了教科書上，但是在實際中這一結構卻從來沒有被完美實現過。做的比較好的應該屬Java和.NET虛擬機。虛擬機可以將目標語言翻譯為bytecode，所以理論上講我們可以將任何語言翻譯為bytecode，然後輸入虛擬機中運行。但是這一動態語言的模型並不太適合C語言，所以硬將C語言翻譯為bytecode並實現垃圾回收機制的效率是非常低的。
GCC也將三段式做的比較好，並且實現了很多前端，支持了很多語言。但是上述這些編譯器的致命缺陷是，他們是一個完整的可執行文件，沒有給其它語言的開發者提供代碼重用的介面。即使GCC是開源的，但是源代碼重用的難度也比較大。
LLVM: Low Level Virtual Machine
LLVM最初是[Low Level Virtual Machine]的縮寫，定位是一個虛擬機，但是是比較底層的虛擬機。它的出現正是為了解決編譯器代碼重用的問題，LLVM一上來就站在比較高的角度，制定了LLVM IR這一中間代碼表示語言。LLVM IR充分考慮了各種應用場景，例如在IDE中調用LLVM進行實時的代碼語法檢查，對靜態語言、動態語言的編譯、優化等。
LLVM與GCC在三段式架構上並沒有本質區別。LLVM與其它編譯器最大的差別是，它不僅僅是Compiler Collection，也是Libraries Collection。舉個例子，假如說我要寫一個XYZ語言的優化器，我自己實現了PassXYZ演算法，用以處理XYZ語言與其它語言差別最大的地方。而LLVM優化器提供的PassA和PassB演算法則提供了XYZ語言與其它語言共性的優化演算法。那麼我可以選擇XYZ優化器在鏈接的時候把LLVM提供的演算法鏈接進來。LLVM不僅僅是編譯器，也是一個SDK。

4. LLVM每日談之一 LLVM是什麼

寫在前面的話：最近接觸llvm比較多，在這個上面花了不少的時間。感覺llvm要完全理解透是個很不容易的事情，需要在學習過程中好好的整理下自己的思路。剛好又閱讀了開源項目Storm的作者Nathan Marz的博客《You should blog even if you have no readers》，就打開自己的blog，開始了這個llvm每日談的系列。希望自己能堅持的久一點，多寫寫llvm的每個方面，多寫寫自己的理解。 llvm是low level virtual machine的簡稱，其實是一個編譯器框架。llvm隨著這個項目的不斷的發展，已經無法完全的代表這個項目了，只是這種叫法一直延續下來。 llvm是一個開源的項目。它最早的時候是Illinois的一個研究項目，主要負責人是Chris Lattner，他現在就職於Apple. Apple 目前也是llvm項目的主要贊助者之一。 llvm的主要作用是它可以作為多種語言的後端，它可以提供可編程語言無關的優化和針對很多種CPU的代碼生成功能。此外llvm目前已經不僅僅是個編程框架，它目前還包含了很多的子項目，比如最具盛名的clang. llvm的優點是開源，有一個表達形式很好的IR語言，模塊化作的特別好。 llvm這個框架目前已經有基於這個框架的大量的工具可以使用。 llvm的官方網站地址是：llvm.org。在這里可以下載最新的發布代碼，也可以找到介紹llvm的相關文檔。附錄：llvm目前支持的工具(描述來自網路) llvm-as 將人類可讀的 .ll 文件匯編成位元組代碼 llvm-dis 將位元組代碼文件反編成人類可讀的 .ll 文件 opt 在一個位元組代碼文件上運行一系列的 LLVM 到 LLVM 的優化 llc 為一個位元組代碼文件生成本機器代碼 lli 直接運行使用 JIT 編譯器或者解釋器編譯成位元組代碼的程序 llvm-link 將幾個位元組代碼文件連接成一個 llvm-ar 打包位元組代碼文件 llvm-ranlib 為 llvm-ar 打包的文件創建索引 llvm-nm 在位元組代碼文件中列印名字和符號類型 llvm-prof 將 'llvmprof.out' raw 數據格式化成人類可讀的報告 llvm-ld 帶有可裝載的運行時優化支持的通用目標連接器 llvm-config 列印出配置時 LLVM 編譯選項、庫、等等 llvmc 一個通用的可定製的編譯器驅動 llvm-diff 比較兩個模塊的結構 bugpoint 自動案例測試減速器 llvm-extract 從 LLVM 位元組代碼文件中解壓出一個函數 llvm-bcanalyzer 位元組代碼分析器（分析二進制編碼本身，而不是它代表的程序） FileCheck 靈活的文件驗證器，廣泛的被測試工具利用 tblgen 目標描述閱讀器和生成器 lit LLVM 集成測試器，用於運行測試

5. Impala中 LLVM 的交叉編譯、調用過程

[TOC]

Impala 使用的 LLVM JIT，首先通過 Clang 將源碼編譯成了 LLVM IR 文件，然後通過腳本將 IR 文件裝成可載入的二進制文件，BE 進程在運行過程中，通過 LLVM 的載入介面，把二進制文件載入進來使用。

待編譯的文件通過codegen/ impala-ir.cpp 指定

impala-ir.cpp 文件主要的作用就是把需要產生 LLVM IR 的文件包含進來。
確定了哪些文件需要產生 LLVM IR 之後，就開始生成 IR 的二進制文件了。大致流程如下：

這個階段生成最初始的bc文件，使用的是 CLang 的編譯工具。命令可見codegen/CMakeFiles.txt

生成的結果是 impala-sse-tmp.bc 文件。

使用LLVM 優化工具，對原始的 bc 文件進行優化。命令可見codegen/CMakeFiles.txt

生成的結果就是impala-sse.bc。

這一步使用的是Impala 自定義的一個腳本 file2array.sh ，將優化後的 bc 文件轉換為可載入的二進制c 文件。命令可見codegen/CMakeFiles.txt。

生成的結果是impala-sse-ir.cc。這個文件內部就是用一個數組存放二進制的值。

be 進程就是通過讀取 impala_sse_llvm_ir 數組，把 LLVM IR載入到進程中。
file2array.sh 腳本其實就是使用 xxd -i < impala-sse-ir.cc 命令把bc 文件內容轉成 c 語言的二進制形式。

LlvmCodeGen 類通過 CreateImpalaCodegen 介面實例化 codegen 對象。 CreateImpalaCodegen 最終會調用 CreateFromMemory ，在 CreateFromMemory 中就是將上文中生成的 impala_sse_llvm_ir 數組通過 LLVM 介面載入進來。

完成載入後，就可以通過 GetFunction 獲取指定的 IR 函數了。

所有的函數名及描述，定義在 impala-ir-names.h 和 impala-ir-functions.h ，這兩個文件是有對應關系的，都是通過gen_ir_descriptions.py生成。

impala-ir-names.h 定義了數組 FN_MAPPINGS ，存儲函數名和枚舉值的映射關系，如下：

impala-ir-functions.h定義了所有函數的枚舉值，如下：

通過 GetFunction 獲取函數的時候，因為有了 FN_MAPPINGS 存儲的映射關系，可以通過傳入枚舉值或者字元串符號查找函數。

在 InitializeLlvm 方法中會使用 FN_MAPPINGS ，對載入的 llvm 函數進行校驗。

6. 如何利用LLVM寫一個編譯器

LLVM有自己的教程，如果你只想做個玩具，那可以首先試著實現LLVM Tutorial: Table of Contents的Kaleidoscope。深入的，請看他的文檔http://llvm.org/docs/

Kaleidoscope是一個範式簡單的腳本語言，教程里的詞法，語法分析都是手寫的，基本流程就是詞法語法解析，利用LLVM的API生成中間代碼並執行。

我用visual studio編譯的LLVM(version 3.6)實現過Kaleidoscope，我遇到的坑不少，如果你想以visual studio編譯的LLVM實現Kaleidoscope，你可能同樣會遇到

1. LLVM的生成目標對象為ELF格式，在windows下使用JIT的API時會出現incompatible object format的錯誤警告，需要在通過重新設定Mole的triple，我的PC的getTargetTriple的結果是「i686-pc-windows-msvc」，直接在後面再加上「-elf」即可

TheMole->setTargetTriple("i686-pc-windows-msvc-elf");

2. LLVM不支持windows下通過動態鏈接導出函數，如果需要使用C/C++的函數，需要通過addSymbol進行注冊

llvm::sys::DynamicLibrary::AddSymbol(/*std::string("_") +*/ "printd", &printd);

3. Kaleidoscope里使用的JIT的查找函數的API，getPointerToFunction已經被棄用了，需要替換為getFunctionAddress

7. Go語言編譯器TinyGo，基於LLVM，在微控制器和小系統上編譯和運行

TinyGo是一個為微控制器、WebAssembly(Wasm)和命令行工具等小型場景設計的Go語言編譯器。TinyGo重用了Go語言工具和LLVM使用的庫，以編譯用Go語言編寫的程序。目前，該項目在GitHub上已經積累了10.1k的Star。

如下為一個示常式序，當運行在任何支持的帶板載LED的主板上時，則會點亮內置LED。

上述程序可以在單片機、Adafruit ItsyBitsy M0微控制器或任何支持的帶內置LED的板上進行編譯和不需要修改的運行，只要設置正確的TinyGo編譯器目標即可。例如，設置如下目標可以編譯和點亮單片機。

項目概述

TinyGo項目旨在將Go語言引入到具有單進程或核心的微控制器和小系統。TinyGo類似於emgo，但主要的區別在於作者想要保留Go內存模型。另一個區別在於TinyGo在內部使用LLVM，因而可以獲得更小更高效的代碼以及更高的靈活性。

創建TinyGo項目的初衷是，如果Python可以在微控制器上運行，Go語言當然也應該能夠在更低級微設備上運行。

支持設備

你可以為微控制器、WebAssembly和Linux編譯TinyGo程序。目前，TinyGo支持以下85種微處理器板。

更多技術細節請參閱原項目。

8. 如何將Java bytecode編譯成LLVM IR，即有沒有可用的LLVM的Java前端

首先簡要介紹一下LLVM。LLVM是一個針對LLVM Intermediate Representation（IR，中間語言）的跨平台優化編譯器，它的模塊化設計很好，使得這個編譯器中的很多功能可以被單獨實現或者改進，這與其C++實現無法分開。由此，LLVM可以被設計成很多語言

9. llvm 利用g++編譯程序，此程序inclue了llvm的一些頭文件。編譯時出現 undefined reference to錯誤

你是要編譯llvm和你自己在llvm上做的工程？llvm能用gnu工具鏈編譯的，你的配置有問題，編譯，鏈接腳本的順序有問題。這跟是不是第三方庫沒關系

導航:首頁 > 源碼編譯 > 編譯llvm依賴

編譯llvm依賴

與編譯llvm依賴相關的資料