編譯器是如何編寫的李永樂_編譯器的發展史

① 編譯器為什麼會生成匯編語言而不是機器語言

計算機只能識別二進制代碼，所以機器指令是由二進制代碼組成的，即你所說的機器語言。所謂匯編語言，只是一種符號，用來方便人們使用，否則你看到的都是一串串的01011011之類的信息，一眼就認出它是什麼指令非常困難，而用匯編語言這種符號，一看就知道是什麼指令了。這種符號語言用助記符來表示操作碼，用符號或符號地址來表示操作數或數地址，它與機器指令是一一對應的。（樓上各位表述的所謂「步驟」論是不確切的）
所以，並不是你說的「生成匯編語言而不是機器語言」，生成的是機器語言，你在調試器或反匯編程序中看到的匯編語言代碼只是由反匯編程序把機器指令翻譯成你看得懂的符號－－匯編語言－－而已。（比如你在OD或IDA中可以看到每行匯編指令前面都有機器碼，如push ebp的機器碼是55h，單看55，你不是熟手的話可能還不知道它是什麼指令，後面給你顯示出符號"push ebp"，你一下子就明白了，這就是一一對應的關系，連"55"都是為了讓你看的方便，否則應是01010101，即8個電子元件的電源開、關狀態）
同樣的道理，你在十六進制編輯器（如winhex、HexWorkShop等軟體）中看到的是十六進制每行16位元組排列的，那也是經過把二進制代碼每位元組轉換成十六進制顯示給你看的。

關於平台問題，當然會有影響，不同的CPU有不同的指令系統，就連同一廠家的CPU指令系統都不同，比如Intel公司的CPU，從最早的到現在的，指令不斷增多，什麼MMX、SSE等等新指令集不斷出現，更不要說不同廠家的CPU了。當然它們之間也有很多兼容的指令集。

② 編譯器是如何運行的

1、一個現代編譯器的主要工作流程：源代碼(sourcecode)→預處理數陪伏器薯攜(preprocessor)→編譯器(compiler)→目標代碼(objectcode)→鏈接器(Linker)→可執行程序(executables)。

2、編譯器就是將「一種語言（通常為高亂陸級語言）」翻譯為「另一種語言（通常為低級語言）」的程序。高級計算機語言便於人編寫，閱讀交流，維護。機器語言是計算機能直接解讀、運行的。編譯器將匯編或高級計算機語言源程序（Sourceprogram）作為輸入，翻譯成目標語言（Targetlanguage）機器代碼的等價程序。

③ 編譯原理的數據結構

編譯原理一直是計算機學習的必修課.
當然，由編譯器的階段使用的演算法與支持這些階段的數據結構之間的交互是非常強大的。編譯器的編寫者盡可能有效實施這些方法且不引起復雜性。理想的情況是：與程序大小成線性比例的時間內編譯器，換言之就是，在0 （ n ）時間內，n是程序大小的度量（通常是字元數）。本節將講述一些主要的數據結構，它們是其操作部分階段所需要的，並用來在階段中交流信息。臨時文件（temporary file）：計算機過去一直未能在編譯器時將整個程序保留在存儲器中。這一問題已經通過使用臨時文件來保存翻譯時中間步驟的結果或通過「匆忙地」編譯（也就是只保留源程序早期部分的足夠信息用以處理翻譯）解決了。存儲器的限制現在也只是一個小問題了，現在可以將整個編譯單元放在存儲器之中，特別是在可以分別編譯的語言中時。但是偶爾還是會發現需要在某些運行步驟中生成中間文件。其中典型的是代碼生成時需要反填（backpatch）地址。例如，當翻譯如下的條件語句時 if x = 0 then ... else ... 在知道else部分代碼的位置之前必須由文本跳到else部分：
CMP X,0 JNE NEXT ;;
location of NEXT not yet known < code for then-part > NEXT : < code for else-part >
通常，必須為NEXT的值留出一個空格，一旦知道該值後就會將該空格填上，利用臨時文件可以很容易地做到這一點。
如果想利用上面的編譯原理開發一套屬於自己的編程語言，或者想在一個產品中嵌入編程語言，可以參考zengl開源網開發的zengl編程語言，該編程語言為國人使用C語言開發，裡麵包含兩個部分，一個是編譯器，一個是解釋執行中間代碼的虛擬機。編譯器包含了詞法掃描，語法分析，中間代碼輸出等，虛擬機則類似JAVA一樣解釋執行中間代碼。作者將所有的版本都公布出來，好讓讀者可以由淺入深的做研究，並且為了證明該編程語言的實用性，還結合SDL游戲開發庫開發了一款圖形界面和命令行界面的21點撲克小游戲。
zengl編程語言目前適用平台為windows和linux (最開始在Linux下使用gcc開發，後來移植到windows平台)

④ 編譯器一般由哪種語言開發

其實我在想為什麼匯編語言生成一個簡單的編譯器後，可以用新生成的編譯器再次生成編譯器，例如，C語言開發C的編譯器呢？
這是一個遞歸的思想，舉個例子一看就明白了
用一個大的模具可以生成一個A模具，A模具可以做出來B模具，依次往下推，最終這個小模具可以做出來小盒子用來裝東西。
第一個大模具肯定是手工做出來的第一個模具，但是有了這個大模具後，後面就可以用他自動的生成更多的模具，後面的各種模具加起來又可以造出來更精緻的模具，
所以，自動第一個大模具造出來模具的時候，大模具就可以被拋棄了。
我們都知道編譯程序通常分為下面五個階段：
1）詞法分析
2）語法分析
3）語義分析與中間代碼產生
4）優化
5）目標代碼生成
當然最難的一點就是目標代碼的生成，這一階段實現了最終的翻譯，就是真正把原碼翻譯成可以被CPU直接計算的機器碼（NativeCode）。

⑤ 什麼是編程語言的自舉

就是自己的編譯器可以自行編譯自己的編譯器。
實現方法就是這個編譯器的作者用這個語言的一些特性來編寫編譯器並在該編譯器中支持這些自己使用到的特性。
首先，第一個編譯器肯定是用別的語言寫的（不論是C還是Go還是Lisp還是Python），後面的版本才能談及自舉。
至於先有雞還是先有蛋，我可以舉個這樣的不太恰當的例子：比如我寫了一個可以自舉的C編譯器叫作mycc，不論是編譯器本身的執行效率還是生成的代碼的質量都遠遠好於gcc（本故事純屬虛構），但我用的都是標準的C寫的，那麼我可以就直接用gcc編譯mycc的源碼，得到一份可以生成高質量代碼但本身執行效率低下的mycc，然後當然如果我再用這個生成的mycc編譯mycc的源碼得到新的一份mycc，新的這份不光會產生和原來那份同等高質量的代碼，而且還能擁有比先前版本更高的執行效率（因為前一份是gcc的編譯產物，後一份是mycc的編譯產物，而mycc生成的代碼質量要遠好於gcc的）。故事雖然是虛構的，但是道理差不多就是這么個道理。這也就是為什麼如果從源碼編譯安裝新版本的gcc的話，往往會「編譯——安裝」兩到三遍的原因。

⑥ 第一個 C 語言編譯器是用什麼語言編寫的

第一個C語言編譯器(簡單的編譯器)是用匯編完成的，後來的完整C語言編譯器是用C語言編寫的(也就是由簡單的編譯器編譯)。

⑦ 編譯器的工作原理

編譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器語言）的翻譯過程。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。
典型的編譯器輸出是由包含入口點的名字和地址，以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的EXE,
所以我們電腦上的文件都是經過編譯後的文件。

⑧ 如何更好的掌握編譯器的設計與實現

1. 閱讀相關書籍：編譯原理、編譯器設計、編譯器實現等；
2. 自學相關編程語言：C、C++、Java等；
3. 實踐：可以使用開源的編譯器框架，例如ANTLR，搭建自己的編譯器；
4. 了解編譯器的各個組成部分，並學習它們的工作原理；
5. 閱讀技術文章，了解編譯器的設計和實現的最新進展；
6. 加入開源項目，編寫和維護編譯器；
7. 在論壇上交流，和更多的編譯器開發者分享心得體會；
8. 參加學術會議，接觸到最新的研究成果；
9. 嘗試著自己設計一個編譯器，用實踐來加深理解。

⑨ 編譯器是怎麼被編譯出來的

我們要在Y系統上做一個C語言的編譯器，假定：X與Y是不同的兩種計算機，其指令系統不兼容。考慮以下幾種情況：
Case 1: Y上沒有C語言編譯器，但X系統上有。
那麼我們可以先在X系統上開發一個針對Y系統的C語言交叉編譯器。然後用這個交叉編譯器重新編譯已有的這個C編譯器的源代碼，就可以得到能在Y系統上運行的C語言編譯器了。（交叉編譯器：在X系統上運行的編譯器，但編譯出來的目標代碼在Y系統上運行。嵌入式平台上的程序基本都是交叉編譯得到的，因為嵌入式平台上很少會有自己的編譯器）
Case 2: X，Y上都沒有C語言編譯器，但有另一種語言的編譯器。
a.我們可以先劃出C語言的一個子集，這個子集必須滿足兩個條件：首先，必須足夠簡單，簡單到可以用另一種語言來編寫接受這個子集的編譯器；其次，必須足夠強大，強大到用這個語言子集就可以編寫出接受C語言的編譯器。（你一定奇怪為什麼一個語言的子集就能寫出接收整個語言的編譯器，呵呵。我猜是因為一個語言的很多復雜特性都是由簡單特性構成的，就像一個struct結構完全可以用幾個定義在一起的簡單變數代替實現；而且，編譯器的實現往往不會用到這個語言的高級特性，需要用的都加到那個子集里就行。）
b.再用另一種語言編寫一個能接受這個C語言子集的編譯器，只要保證可以在Y系統上正確運行就行，並不對其效率作要求，因為基本上它只被用一次。
c.然後，用C語言的子集編寫一個在Y系統上的C語言編譯器，用上一步得到的編譯器編譯得到可用的Y系統上的C編譯器。

⑩ 編譯器的發展史

編譯器
編譯器，是將便於人編寫，閱讀，維護的高級計算機語言翻譯為計算機能識別，運行的低級機器語言的程序。編譯器將源程序（Source program）作為輸入，翻譯產生使用目標語言（Target language）的等價程序。源程序一般為高級語言（High-level language），如Pascal，C++等，而目標語言則是匯編語言或目標機器的目標代碼（Object code），有時也稱作機器代碼（Machine code）。

一個現代編譯器的主要工作流程如下：

源程序（source code）→預處理器（preprocessor）→編譯器（compiler）→匯編程序（assembler）→目標程序（object code）→連接器（鏈接器，Linker）→可執行程序（executables）
目錄 [隱藏]
1 工作原理
2 編譯器種類
3 預處理器（preprocessor）
4 編譯器前端（frontend）
5 編譯器後端（backend）
6 編譯語言與解釋語言對比
7 歷史
8 參見

工作原理
翻譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器言）。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類
編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高級語言作為輸入，輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）
作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）
前端主要負責解析（parse）輸入的源程序，由詞法分析器和語法分析器協同工作。詞法分析器負責把源程序中的『單詞』（Token）找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端詞法分析器看到的是「a, =, b , +, c;」，語法分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）
編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源程序的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程序的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目的是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

編譯語言與解釋語言對比
許多人將高級程序語言分為兩類: 編譯型語言和解釋型語言。然而，實際上，這些語言中的大多數既可用編譯型實現也可用解釋型實現，分類實際上反映的是那種語言常見的實現方式。（但是，某些解釋型語言，很難用編譯型實現。比如那些允許在線代碼更改的解釋型語言。）

歷史
上世紀50年代，IBM的John Backus帶領一個研究小組對FORTRAN語言及其編譯器進行開發。但由於當時人們對編譯理論了解不多，開發工作變得既復雜又艱苦。與此同時，Noam Chomsky開始了他對自然語言結構的研究。他的發現最終使得編譯器的結構異常簡單，甚至還帶有了一些自動化。Chomsky的研究導致了根據語言文法的難易程度以及識別它們所需要的演算法來對語言分類。正如現在所稱的Chomsky架構（Chomsky Hierarchy），它包括了文法的四個層次：0型文法、1型文法、2型文法和3型文法，且其中的每一個都是其前者的特殊情況。2型文法（或上下文無關文法）被證明是程序設計語言中最有用的，而且今天它已代表著程序設計語言結構的標准方式。分析問題（parsing problem，用於上下文無關文法識別的有效演算法）的研究是在60年代和70年代，它相當完善的解決了這個問題。現在它已是編譯原理中的一個標准部分。

有限狀態自動機（Finite Automaton）和正則表達式（Regular Expression）同上下文無關文法緊密相關，它們與Chomsky的3型文法相對應。對它們的研究與Chomsky的研究幾乎同時開始，並且引出了表示程序設計語言的單詞的符號方式。

人們接著又深化了生成有效目標代碼的方法，這就是最初的編譯器，它們被一直使用至今。人們通常將其稱為優化技術（Optimization Technique），但因其從未真正地得到過被優化了的目標代碼而僅僅改進了它的有效性，因此實際上應稱作代碼改進技術（Code Improvement Technique）。

當分析問題變得好懂起來時，人們就在開發程序上花費了很大的功夫來研究這一部分的編譯器自動構造。這些程序最初被稱為編譯器的編譯器（Compiler-compiler），但更確切地應稱為分析程序生成器（Parser Generator），這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc（Yet Another Compiler-compiler），它是由Steve Johnson在1975年為Unix系統編寫的。類似的，有限狀態自動機的研究也發展了一種稱為掃描程序生成器（Scanner Generator）的工具，Lex（與Yacc同時，由Mike Lesk為Unix系統開發）是這其中的佼佼者。

在70年代後期和80年代早期，大量的項目都貫注於編譯器其它部分的生成自動化，這其中就包括了代碼生成。這些嘗試並未取得多少成功，這大概是因為操作太復雜而人們又對其不甚了解。

編譯器設計最近的發展包括：首先，編譯器包括了更加復雜演算法的應用程序它用於推斷或簡化程序中的信息；這又與更為復雜的程序設計語言的發展結合在一起。其中典型的有用於函數語言編譯的Hindley-Milner類型檢查的統一演算法。其次，編譯器已越來越成為基於窗口的交互開發環境（Interactive Development Environment，IDE）的一部分，它包括了編輯器、連接程序、調試程序以及項目管理程序。這樣的IDE標准並沒有多少，但是對標準的窗口環境進行開發已成為方向。另一方面，盡管近年來在編譯原理領域進行了大量的研究，但是基本的編譯器設計原理在近20年中都沒有多大的改變，它現在正迅速地成為計算機科學課程中的中心環節。

在九十年代，作為GNU項目或其它開放源代碼項目的一部分，許多免費編譯器和編譯器開發工具被開發出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認為是高質量的，而且對現代編譯理論感性趣的人可以很容易的得到它們的免費源代碼。

大約在1999年，SGI公布了他們的一個工業化的並行化優化編譯器Pro64的源代碼，後被全世界多個編譯器研究小組用來做研究平台，並命名為Open64。Open64的設計結構好，分析優化全面，是編譯器高級研究的理想平台。

編譯器是一種特殊的程序，它可以把以特定編程語言寫成的程序變為機器可以運行的機器碼。我們把一個程序寫好，這時我們利用的環境是文本編輯器。這時我程序把程序稱為源程序。在此以後程序員可以運行相應的編譯器，通過指定需要編譯的文件的名稱就可以把相應的源文件（通過一個復雜的過程）轉化為機器碼了。

編譯器工作方法
首先編譯器進行語法分析，也就是要把那些字元串分離出來。然後進行語義分析，就是把各個由語法分析分析出的語法單元的意義搞清楚。最後生成的是目標文件，我們也稱為obj文件。再經過鏈接器的鏈接就可以生成最後的可執行代碼了。有些時候我們需要把多個文件產生的目標文件進行鏈接，產生最後的代碼。我們把一過程稱為交叉鏈接。

導航:首頁 > 源碼編譯 > 編譯器是如何編寫的李永樂

編譯器是如何編寫的李永樂

與編譯器是如何編寫的李永樂相關的資料