編譯器分析樹_什麼是編譯器

❶ emacs編輯器的下載及使用安裝問題

win下使用emacs不會是個好選擇，但是也看個人喜好。

在xp和win7下使用過emacs，win8如此高大上的系統，沒用過。想來emacs在win8下也不會有太大問題。下載區gun的主頁就行了，這里有emacs for windows的gun下載主頁：

http://ftp.gnu.org/gnu/emacs/windows/

向下拖，最後的列表，建議下emacs24.3版本。emacs的更新是很實在的，不會說像一些國產商業軟體一樣，屁大點事都弄個更新，eamcs每次更新都會有很大的變化，而且新版本穩定後也更好用。

emacs在win中安裝有2中方式：直接下載二進制文件和下載源碼編譯。

一般來說，直接從上面的連接下載編譯好的emacs就行了，這個一般是用MGwin在windows下編譯的。自己弄的話，下個mgwin或cygwin，手動make編譯，但不推薦這么做，挺折騰，各種依賴包，時間也很長。如果真想體驗一把，請另行網路，有教程。

eamcs想在win下用的舒坦對新手來說不是件容易的事。不清楚是誰鼓動你在win下用emacs寫C的。如果你沒有特殊的需求，比如，主要開發工作針對linux，建議你直接使用VS來寫VC，方便直接，開箱即用。

emacs是個geek味道很濃的東西，具體體現就是：

沒插件啥也干不好
插件安裝千奇百怪沒有統一的方式，好在24.3的elpa一定程度上緩解了到處找插件的問題，但是治標不治本。
配置過程是在使用elisp編程，門檻相對較高，起碼比滑鼠點來點去高不少
插件之間存在一些沖突，因為都是愛好者開發的，單個插件可能經過測試，但是這些東西放一塊好不好使，只有天知道。當然，知名的插件肯定是沒問題的，但是那些偏門的東東，就不好說了。
emacs使用，包括插件自帶的說明文檔，都不可能有中文支持，純英文雖然很練水平，但是對一些人，起碼是我來說，很頭痛。

基本就是這些。不是說emacs有什麼不好，都說高手才會使用emacs，所以這個東西，從來都不是對新手准備的，對新人相當的不友好。如果你用過vim，可能會覺著emacs初始的工作方式比vim好太多，起碼不會按個esc就啥也輸不進去。但是相信我，你被騙了，真的。想讓此等神器按你的方式工作，不折騰個欲仙欲死是不大可能了。geek么，就喜歡折騰，如果你是這樣的人，恭喜你，你找到了世界上最好玩的玩具，它能從各方面滿足你折騰與探索之心，盡情享吧。

如果你還是想用eamcs，體驗下這個gnu的拳頭產品的魅力，下面可以給點建議：

下載emacs後，請完成最基本的配置，找到.emacs.d和.emacs文件所在位置，這個在windows下很多人一頭霧水。如果有疑惑，請網路 emacs中文網。推薦用注冊表方式指定home目錄。
做好心理准備，最少在一星期之內，你不可能用它開始工作。
花半個小時看emacs toturial。emacs剛啟動的歡迎界面上有連接，也可以在help菜單下找到
熟悉了基本，可以去網上點配置貼到.emacs文件中，順帶瞅瞅elisp的尊容，以後要經常和它打交道。在這個過程中，你會見識到emacs在幾行elisp代碼下翻天覆地的變化，起碼表面上看起來，完全就是2個東西。
推薦篇文章：「一年成為eamcs高手」http://blog.csdn.net/redguardtoo/article/details/7222501 想少走彎路，可以嚴格按照上面說的做。
如果你看了第5條，覺著有道理，請下載牛人的配置,去github逛逛吧，你需要一個gitextension，請自行安裝，這個可以幫你在後面方便地管理你的.eamcs.d文件夾。配置新手推薦 emacs-starter-kit或者prelude，它們都在github上，請自行搜索。我用的是第二個，配置比較基礎，感覺還不錯。

如果你已經會用牛人配置的基本功能了而且還對emacs有很大的熱情，可以著手配置C開發環境了。

下面說說emacs下C開發環境的搭建，基本的插件有這幾個：

ecb cedet tabbar tabbar-ruler yasnippet auto-complete

分別說說：

ecb，emacs code browser，用於瀏覽代碼，大致看起來是這個樣子：
具體安裝一言難盡，請多網路谷歌。這個時候網路不一定好使，google相對可靠的多。這個是emacs插件的配置，還缺mgwin，這個要額外配置，添加exec-path。具體請網路，我沒配過，我emacs都是org寫文檔用的，偶爾騷包用eamcs寫，回頭VS編譯。

如果上面的你都折騰過了，你應該會發現新的問題：老子折騰了這么久，為什麼感覺還沒個VC6+VAX來的實在？問題出在cedet的組件semantic上。它負責進行語法分析，生成tags，顯示函數，進行跳轉和補全。但是這個東西是基於靜態分析的且是純elisp實現的，效率上可想而知。VS的補全是動態進行的且它本身可以利用編譯器的分析結果，所以速度快，補全能力很強。semantic則相反，它不能利用編譯器生成的語法分析樹，自己掃描靜態文件，這個效率可想而知。解決方法么，在linux下有個GCC的修改版本，可以將分析結果借用給semantic，貌似要額外進行一些配置，這樣配置過後，semantic就會快很多，起碼不會出現打開個C文件，分析半分鍾這么誇張。同樣的問題出在auto-complete和yasnippet上。它們同樣沒有編譯器分析結果做支持，所以補全基本是基於縮略詞的，相當的不智能。這些是emacs作為C開發環境的缺點。

這些問題的出現，並不是emacs本身不夠強，實在是沒有大廠商的支持，靠一群愛好者進行義務開發和維護，很大程度上限制了eamcs作為IDE上的能力。本身這個也不是大問題，emacs被愛好者稱為操作系統，IDE只是人們對它的一個期望罷了，這本來也不是它的強項，通用和擴展性才是它的靈魂。用emacs和VS比C開發效率，這本來就不公平，有本事你也去linux命令行跑跑看嘛。

lz加油吧，每個喜愛emacs並為之付出的人，都會得到回報。不要太過計較一時的得失，emacs絕對是值得信賴的工具，值得你為他付出。這個道理其實很簡單：除了emacs，你再也找不出一個程序，能夠完全按照你的意願工作。

emacs的神奇來源於它驚天地泣鬼神的設計理念：編寫lisp解釋器，解釋elisp語言，來製作一個編輯器，這本來就是天才的構想。在emacs的世界裡，絕大多數的功能都是lisp函數的求值帶來的。任何的按鍵，都會觸發解釋器對elisp函數或C函數的求值，運行，然後產生響應的行為。這點可以在eamcs中使用C-h k 來驗證，這個快捷鍵綁定到了describe-key，可以描述你的按鍵所觸發的函數，它的功能和所在的文件，你可以很方便地進入這個文件內部觀察elisp實現。emacs根本就是個解釋器+腳本語言的黃金搭檔。通過elisp編程，你能控制emacs的任何行為，自己編寫elisp函數實現一些自動化操作，比如通過一個按鍵自動格式化當前buffer中的所有代碼，編寫正則匹配函數並綁定到響應快捷鍵，這樣可以通過按下你綁定的按鍵序列，讓emacs自動隱藏指定的行，比如注釋，自動替換選中區域的指定字元序列等等。

總之，emacs無所不能，這個源於它奇思妙想的偉大設計。

以上。

❷ 典型的編譯器可以劃分成幾個主要的邏輯階段

這是我們今天的作業，

典型的編譯器可以劃分成七個主要的邏輯階段，分別是詞法分析器、語法分析器、語義分析器、中間代碼生成器、獨立於機器的代碼優化器、代碼生成器、依賴於機器的代碼優化器。各階段的主要功能：

（1）詞法分析器：詞法分析閱讀構成源程序的字元流，按編程語言的詞法規則把它們組成詞法記號流。

（2）語法分析器：按編程語言的語法規則檢查詞法分析輸出的記號流是否符合這些規則，並依據這些規則所體現出的該語言的各種語言構造的層次性，用各記號的第一元建成一種樹形的中間表示，這個中間表示用抽象語法的方式描繪了該記號流的語法情況。

（3）語義分析器：使用語法樹和符號表中的信息，依據語言定義來檢查源程序的語義一致性，以保證程序各部分能有意義地結合在一起。它還收集類型信息，把它們保存在符號表或語法樹中。

（4）中間代碼生成器:為源程序產生更低級的顯示中間表示，可以認為這種中間表示是一種抽象機的程序。

（5）獨立於機器的代碼優化器：試圖改進中間代碼，以便產生較好的目標代碼。通常，較好是指執行較快，但也可能是其他目標，如目標代碼較短或目標代碼執行時能耗較低。

（6）代碼生成器：取源程序的一種中間表示作為輸入並把它映射到一種目標語言。如果目標語言是機器代碼，則需要為源程序所用的變數選擇寄存器或內存單元，然後把中間指令序列翻譯為完成同樣任務的機器指令序列。

（7）依賴於機器的代碼優化器：試圖改進目標機器代碼，以便產生較好的目標機器代碼。

❸ 什麼是編譯器

編譯器

編譯器是一種特殊的程序，它可以把以特定編程語言寫成的程序變為機器可以運行的機器碼。我們把一個程序寫好，這時我們利用的環境是文本編輯器。這時我程序把程序稱為源程序。在此以後程序員可以運行相應的編譯器，通過指定需要編譯的文件的名稱就可以把相應的源文件（通過一個復雜的過程）轉化為機器碼了。

[編輯]編譯器工作方法
首先編譯器進行語法分析，也就是要把那些字元串分離出來。然後進行語義分析，就是把各個由語法分析分析出的語法單元的意義搞清楚。最後生成的是目標文件，我們也稱為obj文件。再經過鏈接器的鏈接就可以生成最後的可執行代碼了。有些時候我們需要把多個文件產生的目標文件進行鏈接，產生最後的代碼。我們把一過程稱為交叉鏈接。

一個現代編譯器的主要工作流程如下：

* 源程序（source code）→預處理器（preprocessor）→編譯器（compiler）→匯編程序（assembler）→目標程序（object code）→連接器（鏈接器，Linker）→可執行程序（executables）

工作原理

編譯是從源代碼（通常為高級語言）到能直接被計算機或虛擬機執行的目標代碼（通常為低級語言或機器言）。然而，也存在從低級語言到高級語言的編譯器，這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器，或者生成一種需要進一步處理的的中間代碼的編譯器（又叫級聯）。

典型的編譯器輸出是由包含入口點的名字和地址以及外部調用（到不在這個目標文件中的函數調用）的機器代碼所組成的目標文件。一組目標文件，不必是同一編譯器產生，但使用的編譯器必需採用同樣的輸出格式，可以鏈接在一起並生成可以由用戶直接執行的可執行程序。

編譯器種類

編譯器可以生成用來在與編譯器本身所在的計算機和操作系統（平台）相同的環境下運行的目標代碼，這種編譯器又叫做「本地」編譯器。另外，編譯器也可以生成用來在其它平台上運行的目標代碼，這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬體平台時非常有用。「源碼到源碼編譯器」是指用一種高級語言作為輸入，輸出也是高級語言的編譯器。例如: 自動並行化編譯器經常採用一種高級語言作為輸入，轉換其中的代碼，並用並行代碼注釋對它進行注釋（如OpenMP）或者用語言構造進行注釋（如FORTRAN的DOALL指令）。

預處理器（preprocessor）

作用是通過代入預定義等程序段將源程序補充完整。

編譯器前端（frontend）

前端主要負責解析（parse）輸入的源程序，由詞法分析器和語法分析器協同工作。詞法分析器負責把源程序中的『單詞』（Token）找出來,語法分析器把這些分散的單詞按預先定義好的語法組裝成有意義的表達式，語句，函數等等。例如「a = b + c;」前端詞法分析器看到的是「a, =, b , +, c;」，語法分析器按定義的語法，先把他們組裝成表達式「b + c」，再組裝成「a = b + c」的語句。前端還負責語義（semantic checking）的檢查，例如檢測參與運算的變數是否是同一類型的，簡單的錯誤處理。最終的結果常常是一個抽象的語法樹（abstract syntax tree，或 AST），這樣後端可以在此基礎上進一步優化，處理。

編譯器後端（backend）

編譯器後端主要負責分析，優化中間代碼（Intermediate representation）以及生成機器代碼（Code Generation）。

一般說來所有的編譯器分析，優化，變型都可以分成兩大類：函數內（intraproceral）還是函數之間（interproceral）進行。很明顯，函數間的分析，優化更准確，但需要更長的時間來完成。

編譯器分析（compiler analysis）的對象是前端生成並傳遞過來的中間代碼，現代的優化型編譯器（optimizing compiler）常常用好幾種層次的中間代碼來表示程序，高層的中間代碼（high level IR）接近輸入的源程序的格式，與輸入語言相關（language dependent），包含更多的全局性的信息，和源程序的結構；中層的中間代碼（middle level IR）與輸入語言無關，低層的中間代碼(Low level IR)與機器語言類似。不同的分析，優化發生在最適合的那一層中間代碼上。

常見的編譯分析有函數調用樹（call tree），控制流程圖（Control flow graph），以及在此基礎上的變數定義－使用，使用－定義鏈（define-use/use-define or u-d/d-u chain），變數別名分析（alias analysis），指針分析（pointer analysis），數據依賴分析（data dependence analysis）等等。

上述的程序分析結果是編譯器優化（compiler optimization）和程序變形（compiler transformation）的前提條件。常見的優化和變新有：函數內嵌（inlining），無用代碼刪除（Dead code elimination），標准化循環結構（loop normalization），循環體展開（loop unrolling），循環體合並，分裂（loop fusion，loop fission），數組填充（array padding），等等。優化和變形的目的是減少代碼的長度，提高內存（memory），緩存（cache）的使用率，減少讀寫磁碟，訪問網路數據的頻率。更高級的優化甚至可以把序列化的代碼（serial code）變成並行運算，多線程的代碼（parallelized，multi-threaded code）。

機器代碼的生成是優化變型後的中間代碼轉換成機器指令的過程。現代編譯器主要採用生成匯編代碼（assembly code）的策略，而不直接生成二進制的目標代碼（binary object code）。即使在代碼生成階段，高級編譯器仍然要做很多分析，優化，變形的工作。例如如何分配寄存器（register allocatioin），如何選擇合適的機器指令（instruction selection），如何合並幾句代碼成一句等等。

❹ 編譯原理筆記9：語法分析樹、語法樹、二義性的消除

語法分析樹和語法樹不是一種東西 。習慣上，我們把前者叫做「具體語法樹」，其能夠體現推導的過程；後者叫做「抽象語法樹」，其不體現過程，只關心最後的結果。

語法分析樹是語言推導過程的圖形化表示方法。這種表示方法反映了語言的實質以及語言的推導過程。

定義：對於 CFG G 的句型，分析樹被定義為具有下述性質的一棵樹：

推導，有最左推導和最右推導，這兩種推導方式在推導過程中的分析樹可能不同，但因最終得到的句子是相同的，所以最終的分析樹是一樣的。

分析樹能反映句型的推導過程，也能反映句型的結構。然而實際上，我們往往不關心推導的過程，而只關心推導的結果。因此，我們要對 分析樹 進行改造，得到 語法樹 。語法樹中全是終結符，沒有非終結符。而且語法樹中沒有括弧

定義：

說白了，語法樹這玩意，就一句話： 葉子全是操作數，內部全是操作符 ，樹里沒有非終結符也不能有括弧。

語法樹要表達的東西，是操作符（運算）作用於操作數（運算對象）

舉倆例子吧：

【例】： -(id+id) 的語法樹：

【例】：-id+id 的語法樹：

顯然，我們從上面這兩個語法樹中，直接就能觀察出來它們的運算順序。

【例】：句型 if C then s1 else s2

二義性問題：一個句子可能對應多於一棵語法樹。

【例】：設文法 G： E → E+E | E*E | (E) | -E | id

則，句子 id+id*id、id+id+id 可能的分析樹有：

在該例中，雖然 id+id+id 的「+」的結合性無論左右都不會影響結果。但萬一，萬一「+」的含義變成了「減法」，那麼左結合和右結合就會引起很大的問題了。

我們在這里講的「二義性」的「義」並非語義——我們現在在學習的內容是「語法分析器」，尚未到需要研究語言背後含義的階段。

我們現在講的「二義性」指的是一個句子對應多種分析樹。

二義性的體現，是文法對同一句子有不止一棵分析樹。這種問題由【句子產生過程中的某些推導有多於一種選擇】引起。懸空 else 問題就可以很好地體現這種【超過一種選擇】帶來的二義性問題，示例如下。

看下面這么個例子。。

（其實，我感覺這個其實比較像是「說話大喘氣」帶來的理解歧義問題。。。）上面的產生式中並沒體現出來該咋算分一塊，所以兩種完全不同的句子結構都是合法的。

二義性問題是有救的，大概有以下這三種辦法：

這些辦法的核心，其實都是將優先順序和結合性說明白。

核心：把優先順序和結合性說明白

既然要說明白，那就不能讓一個非終結符可以直接在當次推導中能推出會帶來優先順序和結合性歧義的東西。（對分析樹的一個內部節點，不會有出現在其下面的分支是相同的非終結符的情況。如果有得選，那就有得歧義了。沒得選才能確定地一路走到黑）

改寫為非二義文法的二義文法大概有下面這幾個特點：

改寫的關鍵步驟：

【例】改寫下面的二義文法為非二義文法。圖右側是要達成的優先順序和結合性

改寫的核心其實就兩句話：

所以能夠得到非終結符與運算的對應關系（因為不同的運算有不同的優先順序，我們想要引入多個優先順序就要引入多個新的非終結符。這樣每個非終結符就可以負責一個優先順序的運算符號，也就是說新的非終結符是與運算有關系的了。因此這里搞出來了「對應關系」四個字）如下：

優先順序由低到高分別是 +、 、-，而距離開始符號越近，優先順序越低。因此在這里的排序也可以+ -順序。每個符號對應一層的非終結符。根據所需要的結合性，則可確定是左遞歸還是右遞歸，以確定新的產生式長什麼樣子

【例】：規定優先順序和結合性，寫出改寫的非二義文法

我們已經掌握了一種叫做【改寫】的工具，能讓我們消除二義性。接下來我們就要用這個工具來嘗試搞搞懸空 else 問題！

懸空 else 問題出現的原因是 then 數量多於 else，讓 else 有多個可以結合的 then。在二義文法中，由於選哪兩個 then、else 配對都可以，故會引起出現二義的情況。在這里，我們規定 else 右結合，即與左邊最靠近的 then 結合。

為改寫此文法，可以將 S 分為完全匹配（MS）和不完全匹配（UMS）兩類。在 MS 中體現 then、else 個數相等即匹配且右結合；在UMS 中 then、else 不匹配，體現 else 右結合。

【例】：用改寫後的文法寫一個條件語句

經過檢查，無法再根據文法寫出其他分析樹，故已經消除了二義性

雖然二義文法會導致二義性，但是其並非一無是處。其有兩個顯著的優點：

在 Yacc 中，我們可以直接指定優先順序、結合性而無需自己重寫文法。

left 表示左結合，right 表示右結合。越往下的算符優先順序越高。

嗯就這么簡單。。。

我們其實可以把語言本身定義成沒有優先順序和結合性的。。然後所有的優先、結合都交由括弧進行控制，哪個先算就加括弧。把一個過程的結束用明確的標志標記出來。

比如在 Ada 中：

在 Pascal 中，給表達式加括弧：

❺ 編譯器的工作分為哪幾個階段

編譯器就是一個普通程序，沒什麼大不了的
什麼是編譯器？

編譯器是一個將高級語言翻譯為低級語言的程序。

首先我們一定要意識到編譯器就是一個普通程序，沒什麼大不了的。

在沒有弄明白編譯器如何工作之前你可以簡單的把編譯器當做一個黑盒子，其作用就是輸入一個文本文件輸出一個二進制文件。

基本上編譯器經過了以下幾個階段，等等，這句話教科書上也有，但是我相信很多同學其實並沒有真正理解這幾個步驟到底在說些什麼，為了讓你徹底理解這幾個步驟，我們用一個簡單的例子來講解。

假定我們有一段程序：

while (y < z) {
int x = a + b;
y += x;
}
那麼編譯器是怎樣把這一段程序人類認識的程序轉換為CPU認識的二進制機器指令呢？

提取出每一個單詞：詞法分析
首先編譯器要把源代碼中的每個「單詞」提取出來，在編譯技術中「單詞」被稱為token。其實不只是每個單詞被稱為一個token，除去單詞之外的比如左括弧、右括弧、賦值操作符等都被稱為token。

從源代碼中提取出token的過程就被稱為詞法分析，Lexical Analysis。

經過一遍詞法分析，編譯器得到了以下token：

T_While while
T_LeftParen （
T_Identifier y
T_Less <
T_Identifier z
T_RightParen )
T_OpenBrace {
T_Int int
T_Identifier x
T_Assign =
T_Identifier a
T_Plus +
T_Identifier b
T_Semicolon ;
T_Identifier y
T_PlusAssign +=
T_Identifier x
T_Semicolon ;
T_CloseBrace }
就這樣一個磁碟中保存的字元串源代碼文件就轉換為了一個個的token。

這些token想表達什麼意思：語法分析
有了這些token之後編譯器就可以根據語言定義的語法恢復其原本的結構，怎麼恢復呢？

原來，編譯器在掃描出各個token後根據規則將其用樹的形式表示出來，這顆樹就被稱為語法樹。

語法樹是不是合理的：語義分析
有了語法樹後我們還要檢查這棵樹是不是合法的，比如我們不能把一個整數和一個字元串相加、比較符左右兩邊的數據類型要相同，等等。

這一步通過後就證明了程序合法，不會有編譯錯誤。

❻ 分析樹和語法樹的區別編譯原理

如果給出短語等名詞的形式化的定義，便較難理解，不好求。我們通過構造語法樹來求解。首先你應該會根據文法將所給句型構造成語法樹的形式，即根據文法怎樣推導出句型E+T*F。如果你有數據結構二叉樹基礎的話這很簡單就構造出來了。構造出語法樹後，求短語看根節點，有T，和E。則短語為：E+T*F,T*F，而直接短語是指能直接推出葉子節點的根所對應的短語，可知該節點為T，直接短語為：T*F。句柄是最左直接短語，可知為：T*F。

❼ 請問大家在實際項目中用到過編譯原理嗎

我跟你說，編譯原理太有用了。
我是做手機游戲的，現在做一個游戲引擎。既然是引擎，就需要提供抽象的東西給上層使用。這里，我引入了腳本系統。
這個腳本系統包括一堆我根據實際需求自行設計的指令集，包括基本的輸入輸出，四則運算，系統功能調用，函數聲明，調用等等（其實你要是用過lua或者其他游戲腳本你就知道了。）整個結構包括指令集、編譯器、虛擬機等部分。這樣，引擎提供一些基礎服務，比如繪圖，計算位置等，腳本就可以非常簡單控制游戲。甚至快速構建新游戲。你應該知道QUAKE引擎吧？
這里提供給你一個計算器的小程序，應用了EBNF理論，支持表達式，比如(2+3*6)*4+4，你自己體驗一下它的簡潔和強大。
/*
simple integer arithmetic calculator according to the EBNF
<exp> -> <term>{<addop><term>}
<addop>->+|-
<term>-><factor>{<mulop><factor>}
<mulop> -> *
<factor> -> ( <exp> )| Number
Input a line of text from stdin
Outputs "Error" or the result.
*/
#include <stdio.h>
#include <stdlib.h>
#include <ctype.h>

char token;/*global token variable*/
/*function prototypes for recursive calls*/
int exp(void);
int term(void);
int factor(void);

void error(void)
{
fprintf(stderr,"Error\n");
exit(1);
}

void match(char expectedToken)
{
if(token==expectedToken)token=getchar();
else error();
}

main()
{
int result;
token = getchar();/*load token with first character for lookahead*/
result = exp();
if(token=='\n')/*check for end of line */
printf("Result = %d\n",result);
else error();/*extraneous cahrs on line*/
return 0;
}

int exp(void)
{
int temp = term();
while((token=='+')||(token=='-'))
switch(token)
{
case '+':
match('+');
temp+=term();
break;
case '-':
match('-');
temp-=term();
break;
}
return temp;
}

int term(void)
{
int temp = factor();
while (token=='*')
{
match('*');
temp*=factor();
}
return temp;
}

int factor(void)
{
int temp;
if(token=='('){
match('(');
temp = exp();
match(')');
}
else if(isdigit(token)){
ungetc(token,stdin);
scanf("%d",&temp);
token = getchar();
}
else error();
return temp;
}
其實編程學到一定程度總是沒有方向了，總是在問學C/C++下一步怎麼學啊，覺得掌握了該語言了雲雲，實際上，你缺少的就是這些軟的東西，缺少的是理論。
編譯原理不是單一的理論，它涵蓋了一個niche，裡面可以學到很多其他知識，比如正則表達式、BNF、EBNF、分析樹、語法樹還有很多運行時環境等知識
這些給你帶來的是非常豐厚的回報。不說多了，學完運行時，你就會加深對C++語言本身的理解。

❽ 編譯器的組成及各部分的功能及作用

1. 詞法分析詞法分析器根據詞法規則識別出源程序中的各個記號（token），每個記號代表一類單詞（lexeme）。源程序中常見的記號可以歸為幾大類：關鍵字、標識符、字面量和特殊符號。詞法分析器的輸入是源程序，輸出是識別的記號流。詞法分析器的任務是把源文件的字元流轉換成記號流。本質上它查看連續的字元然後把它們識別為「單詞」。 2. 語法分析語法分析器根據語法規則識別出記號流中的結構（短語、句子），並構造一棵能夠正確反映該結構的語法樹。 3. 語義分析語義分析器根據語義規則對語法樹中的語法單元進行靜態語義檢查，如果類型檢查和轉換等，其目的在於保證語法正確的結構在語義上也是合法的。 4. 中間代碼生成中間代碼生成器根據語義分析器的輸出生成中間代碼。中間代碼可以有若干種形式，它們的共同特徵是與具體機器無關。最常用的一種中間代碼是三地址碼，它的一種實現方式是四元式。三地址碼的優點是便於閱讀、便於優化。 5. 中間代碼優化優化是編譯器的一個重要組成部分，由於編譯器將源程序翻譯成中間代碼的工作是機械的、按固定模式進行的，因此，生成的中間代碼往往在時間和空間上有很大浪費。當需要生成高效目標代碼時，就必須進行優化。 6. 目標代碼生成目標代碼生成是編譯器的最後一個階段。在生成目標代碼時要考慮以下幾個問題：計算機的系統結構、指令系統、寄存器的分配以及內存的組織等。編譯器生成的目標程序代碼可以有多種形式：匯編語言、可重定位二進制代碼、內存形式。 7 符號表管理符號表的作用是記錄源程序中符號的必要信息，並加以合理組織，從而在編譯器的各個階段能對它們進行快速、准確的查找和操作。符號表中的某些內容甚至要保留到程序的運行階段。 8 出錯處理用戶編寫的源程序中往往會有一些錯誤，可分為靜態錯誤和動態錯誤兩類。所謂動態錯誤，是指源程序中的邏輯錯誤，它們發生在程序運行的時候，也被稱作動態語義錯誤，如變數取值為零時作為除數，數組元素引用時下標出界等。靜態錯誤又可分為語法錯誤和靜態語義錯誤。語法錯誤是指有關語言結構上的錯誤，如單詞拼寫錯、表達式中缺少操作數、begin和end不匹配等。靜態語義錯誤是指分析源程序時可以發現的語言意義上的錯誤，如加法的兩個操作數中一個是整型變數名，而另一個是數組名等。

❾ 編譯原理題目

習題一、單項選擇題
1、將編譯程序分成若干個「遍」是為了。
a．提高程序的執行效率
b．使程序的結構更加清晰
c．利用有限的機器內存並提高機器的執行效率
d．利用有限的機器內存但降低了機器的執行效率
2、構造編譯程序應掌握。
a．源程序 b．目標語言
c．編譯方法 d．以上三項都是
3、變數應當。
a．持有左值 b．持有右值
c．既持有左值又持有右值 d．既不持有左值也不持有右值
4、編譯程序絕大多數時間花在上。
a．出錯處理 b．詞法分析
c．目標代碼生成 d．管理表格
5、不可能是目標代碼。
a．匯編指令代碼 b．可重定位指令代碼
c．絕對指令代碼 d．中間代碼
6、使用可以定義一個程序的意義。
a．語義規則 b．詞法規則
c．產生規則 d．詞法規則
7、詞法分析器的輸入是。
a．單詞符號串 b．源程序
c．語法單位 d．目標程序
8、中間代碼生成時所遵循的是- 。
a．語法規則 b．詞法規則
c．語義規則 d．等價變換規則
9、編譯程序是對。
a．匯編程序的翻譯 b．高級語言程序的解釋執行
c．機器語言的執行 d．高級語言的翻譯
10、語法分析應遵循。
a．語義規則 b．語法規則
c．構詞規則 d．等價變換規則
解答
1、將編譯程序分成若干個「遍」是為了使編譯程序的結構更加清晰，故選b。
2、構造編譯程序應掌握源程序、目標語言及編譯方法等三方面的知識，故選d。
3、對編譯而言，變數既持有左值又持有右值，故選c。
4、編譯程序打交道最多的就是各種表格，因此選d。
5、目標代碼包括匯編指令代碼、可重定位指令代碼和絕對指令代碼3種，因此不是目標代碼的只能選d。
6、詞法分析遵循的是構詞規則，語法分析遵循的是語法規則，中間代碼生成遵循的是語義規則，並且語義規則可以定義一個程序的意義。因此選a。
7、b 8、c 9、d 10、c
二、多項選擇題
1、編譯程序各階段的工作都涉及到。
a．語法分析 b．表格管理 c．出錯處理
d．語義分析 e．詞法分析
2、編譯程序工作時，通常有階段。
a．詞法分析 b．語法分析 c．中間代碼生成
d．語義檢查 e．目標代碼生成
解答
1．b、c 2. a、b、c、e
三、填空題
1、解釋程序和編譯程序的區別在於。
2、編譯過程通常可分為5個階段，分別是、語法分析、代碼優化和目標代碼生成。 3、編譯程序工作過程中，第一段輸入是，最後階段的輸出為程序。
4、編譯程序是指將程序翻譯成程序的程序。解答
是否生成目標程序 2、詞法分析中間代碼生成 3、源程序目標代碼生成 4、源程序目標語言
一、單項選擇題
1、文法G：S→xSx|y所識別的語言是。
a. xyx b. (xyx)* c. xnyxn(n≥0) d. x*yx*
2、文法G描述的語言L(G)是指。
a. L(G)={α|S+ ⇒α , α∈VT*} b. L(G)={α|S*⇒α, α∈VT*}
c. L(G)={α|S*⇒α,α∈(VT∪VN*)} d. L(G)={α|S+ ⇒α, α∈(VT∪VN*)}
3、有限狀態自動機能識別。
a. 上下文無關文法 b. 上下文有關文法
c.正規文法 d. 短語文法
4、設G為算符優先文法，G的任意終結符對a、b有以下關系成立。
a. 若f(a)>g(b)，則a>b b.若f(a)<g(b)，則a<b
c. a~b都不一定成立 d. a~b一定成立
5、如果文法G是無二義的，則它的任何句子α 。
a. 最左推導和最右推導對應的語法樹必定相同
b. 最左推導和最右推導對應的語法樹可能不同
c. 最左推導和最右推導必定相同
d. 可能存在兩個不同的最左推導，但它們對應的語法樹相同
6、由文法的開始符經0步或多步推導產生的文法符號序列是。
a. 短語 b.句柄 c. 句型 d. 句子
7、文法G：E→E+T|T
T→T*P|P
P→(E)|I
則句型P+T+i的句柄和最左素短語為。
a.P+T和i b. P和P+T c. i和P+T+i d.P和T
8、設文法為：S→SA|A
A→a|b
則對句子aba，下面是規范推導。
a. SÞSAÞSAAÞAAAÞaAAÞabAÞaba
b. SÞSAÞSAAÞAAAÞAAaÞAbaÞaba
c. SÞSAÞSAAÞSAaÞSbaÞAbaÞaba
d. SÞSAÞSaÞSAaÞSbaÞAbaÞaba
9、文法G：S→b|∧(T)
T→T,S|S
則FIRSTVT(T) 。
a. {b,∧,(} b. {b,∧,)} c.{b,∧,(,，} d.{b,∧,),，}
10、產生正規語言的文法為。
a. 0型 b. 1型 c. 2型 d. 3型
11、採用自上而下分析，必須。
a. 消除左遞歸 b. 消除右遞歸 c. 消除回溯 d. 提取公共左因子
12、在規范歸約中，用來刻畫可歸約串。
a. 直接短語 b. 句柄 c. 最左素短語 d. 素短語
13、有文法G：E→E*T|T
T→T+i|i
句子1+2*8+6按該文法G歸約，其值為。
a. 23 B. 42 c. 30 d. 17
14、規范歸約指。
a. 最左推導的逆過程 b. 最右推導的逆過程
c. 規范推導 d. 最左歸約的逆過程
[解答]
1、選c。
2、選a。
3、選c。
4、雖然a與b沒有優先關系，但構造優先函數後，a與b就一定存在優先關系了。所以，由f(a)>g)(b)或f(a)<g(b)並不能判定原來的a與b之間是否存在優先關系：故選c。
5、如果文法G無二義性，則最左推導是先生長右邊的枝葉：對於d，如果有兩個不同的是了左推導，則必然有二義性。故選a。
6、選c。
7、由圖2-8-1的語法樹和優先關系可以看出應選b。

8、規范推導是最左推導，故選d。
9、由T→T,…和T→(… 得FIRSTVT(T))={(,，)}；
由T→S得FIRSTVT(S)⊂FIRSTVT(T)，而FIRSTVT(S)={b,∧,(}；即
FIRSTVT(T)={b,∧,(,，}；因此選c。
10、d 11、c 12、b 13、b 14、b
二、多項選擇題
1、下面哪些說法是錯誤的。
a. 有向圖是一個狀態轉換圖 b. 狀態轉換圖是一個有向圖
c.有向圖是一個DFA d.DFA可以用狀態轉換圖表示
2、對無二義性文法來說，一棵語法樹往往代表了。
a. 多種推導過程 b. 多種最左推導過程 c.一種最左推導過程
d.僅一種推導過程 e.一種最左推導過程
3、如果文法G存在一個句子，滿足下列條件之一時，則稱該文法是二義文法。
a. 該句子的最左推導與最右推導相同
b. 該句子有兩個不同的最左推導
c. 該句子有兩棵不同的最右推導
d. 該句子有兩棵不同的語法樹
e.該句子的語法樹只有一個
4、有一文法G：S→AB
A→aAb|ε
B→cBd|ε
它不產生下面集合。
a. {anbmcndm|n,m≥0} b. {anbncmdm|n,m>0}
c. {anbmcmdn|n,m≥0} d. {anbncmdm|n,m≥0}
e. {anbncndn|n≥0}
5、自下而上的語法分析中，應從開始分析。
a. 句型 b. 句子 c. 以單詞為單位的程序
d. 文法的開始符 e. 句柄
6、對正規文法描述的語言，以下有能力描述它。
a.0型文法 b.1型文法 c.上下文無關文法 d.右線性文法 e.左線性文法
解答 1、e、a、c 2、a、c、e 3、b、c、d 4、a、c 5、b、c 6、a、b、c、d、e
三、填空題
1、文法中的終結符和非終結符的交集是。詞法分析器交給語法分析器的文法符號一定是，它一定只出現在產生式的部。
2、最左推導是指每次都對句型中的非終結符進行擴展。
3、在語法分析中，最常見的兩種方法一定是分析法，另一是分析法。
4、採用語法分析時，必須消除文法的左遞歸。
5、樹代表推導過程，樹代表歸約過程。
6、自下而上分析法採用、歸約、錯誤處理、等四種操作。
7、Chomsky把文法分為種類型，編譯器構造中採用和文法，它們分別產生和語言，並分別用和自動機識別所產生的語言。
解答 1、空集終結符右
2、最左
3、自上而上自下而上
4、自上而上
5、語法分析
6、移進接受
7、4 2 型 3型上下文無關語言正規語言下推自動機有限
四、判斷題
1、文法 S→aS|bR|ε描述的語言是(a|bc)* ( )
R→cS
2、在自下而上的語法分析中，語法樹與分析樹一定相同。（）
3、二義文法不是上下文無關文法。（）
4、語法分析時必須先消除文法中的左遞歸。（）
5、規范歸約和規范推導是互逆的兩個過程。（）
6、一個文法所有句型的集合形成該文法所能接受的語言。（）
解答 1、對 2、錯 3、錯 4、錯 5、錯 6、錯
五、簡答題
1、句柄 2、素短語 3、語法樹 4、歸約 5、推導
[解答]
1、句柄：一個句型的最左直接短語稱為該句型的句柄。
2、素短語：至少含有一個終結符的素短語，並且除它自身之外不再含任何更小的素短語。
3、語法樹：滿足下面4個條件的樹稱之為文法G[S]的一棵語法樹。
①每一終結均有一標記，此標記為VN∪VT中的一個符號；
②樹的根結點以文法G[S]的開始符S標記；
③若一結點至少有一個直接後繼，則此結點上的標記為VN中的一個符號；
④若一個以A為標記的結點有K個直接後繼，且按從左至右的順序，這些結點的標記分別為X1,X2,…,XK，則A→X1,X2,…,XK，必然是G的一個產生式。
4、歸約：我們稱αγβ直接歸約出αAβ，僅當A→γ 是一個產生式，且α、β∈(VN∪VT)*。歸約過程就是從輸入串開始，反復用產生式右部的符號替換成產生式左部符號，直至文法開始符。
5、推導：我們稱αAβ直接推出αγβ，即αAβÞαγβ，僅當A→ γ 是一個產生式，且α、β∈(VN∪VT)*。如果α1Þα2Þ…Þαn，則我們稱這個序列是從α1至α2的一個推導。若存在一個從α1αn的推導，則稱α1可推導出αn。推導是歸約的逆過程。
六、問答題
1、給出上下文無關文法的定義。
[解答]
一個上下文無關文法G是一個四元式（VT,VN,S, P），其中：
●VT是一個非空有限集，它的每個元素稱為終結符號；
●VN是一個非空有限集，它的每個元素稱為非終結符號，VT∩VN=Φ；
●S是一個非終結符號，稱為開始符號；
●P是一個產生式集合（有限），每個產生式的形式是P→α，其中，P∈VN，
α∈(VT∪VN)*。開始符號S至少必須在某個產生式的左部出現一次。
2、文法G[S]：
S→aSPQ|abQ
QP→PQ
bP→bb
bQ→bc
cQ→cc
（1）它是Chomsky哪一型文法？
（2）它生成的語言是什麼？
[解答]
（1）由於產生式左部存在終結符號，且所有產生式左部符號的長度均小於等於產生式右部的符號長度，所以文法G[S]是Chomsky1型文法，即上下文有關文法。
（2）按產生式出現的順序規定優先順序由高到低（否則無法推出句子），我們可以得到：
SÞabQÞabc
SÞaSPQÞaabQPQÞaabPQQÞaabbQQÞaabbcQÞaabbcc
SÞaSPQÞaaSPQPQÞaaabQPQPQÞaaabPQQPQÞaaabPQPQQÞaaaPPQQQÞ
aaabbPqqqÞaaabbQQQÞaaabbbcQQÞaaabbbccQÞaaabbbccc
……
於是得到文法G[S]生成的語言L={anbncn|n≥1}
3、按指定類型，給出語言的文法。
L={aibj|j＞i≥1}的上下文無關文法。
【解答】
（1）由L={aibj|j＞i≥1}知，所求該語言對應的上下文無關文法首先應有S→aSb型產生式，以保證b的個數不少於a的個數；其次，還需有S→Sb或S→bS型的產生式，用以保證b的個數多於a的個數；也即所求上下文無關文法G[S]為：
G[S]：S→aSb|Sb|b
4、有文法G：S→aAcB|Bd
A→AaB|c
B→bScA|b
（1）試求句型aAaBcbbdcc和aAcbBdcc的句柄；
（2）寫出句子acabcbbdcc的最左推導過程。
【解答】（1）分別畫出對應兩句型的語法樹，如圖2-8-2所示
句柄:AaB Bd

圖2-8-2 語法樹
（2）句子acabcbbdcc的最左推導如下：
SÞaAcBÞaAaBcBÞacaBcBÞacabcBÞacabcbScAÞacabcbBdcA
ÞacabcbbdcAÞacabcbbdcc
5、對於文法G[S]：
S→（L）|aS|a L→L, S|S
（1）畫出句型（S,（a））的語法樹。（2）寫出上述句型的所有短語、直接短語、句柄和素短語。
【解答】
（1）句型（S,（a））的語法樹如圖2-8-3所示

（2）由圖2-8-3可知：
①短語：S、a、(a)、S,(a)、(S,(a))；
②直接短語：a、S；
③句柄：S；
④素短語：素短語可由圖2-8-3中相鄰終結符之間的優先關系求得，即；

因此素短語為a。
6、考慮文法G[T]：
T→T*F|F
F→F↑P|P
P→（T）|i
證明T*P↑（T*F）是該文法的一個句型，並指出直接短語和句柄。
【解答】
首先構造T*P↑（T*F）的語法樹如圖2-8-4所示。

由圖2-8-4可知，T*P↑（T*F）是文法G[T]的一個句型。
直接短語有兩個，即P和T*F；句柄為P。

一、單項選擇題
1、詞法分析所依據的是。
a. 語義規則 b. 構詞規則 c. 語法規則 d. 等價變換規則
2、詞法分析器的輸出結果是。
a. 單詞的種別編碼 b. 單詞在符號表中的位置
c. 單詞的種別編碼和自身值 d. 單詞自身值
3、正規式M1和M2等價是指。
a. M1和M2的狀態數相等 b. M1和M2的有向弧條數相等
c. M1和M2所識別的語言集相等 d. M1和M2狀態數和有向弧條數相等
4、狀態轉換圖（見圖3-6-1）接受的字集為。

a. 以 0開頭的二進制數組成的集合 b. 以0結尾的二進制數組成的集合
c. 含奇數個0的二進制數組成的集合 d. 含偶數個0的二進制數組成的集合
5、詞法分析器作為獨立的階段使整個編譯程序結構更加簡潔、明確，因此，。
a. 詞法分析器應作為獨立的一遍 b. 詞法分析器作為子程序較好
c. 詞法分析器分解為多個過程，由語法分析器選擇使用 d. 詞法分析器並不作為一個獨立的階段
解答 1、b 2、c 3、c 4、d 5、b
二、多項選擇題
1、在詞法分析中，能識別出。
a. 基本字 b. 四元式 c. 運算符
d. 逆波蘭式 e. 常數
2、令∑={a,b}，則∑上所有以b開頭，後跟若干個ab的字的全體對應的正規式為。
a. b(ab)* b. b(ab)+ c.(ba)*b
d. (ba)+b e. b(a|b)
解答 1、a、c、e 2、a、b、d
三、填空題
1、確定有限自動機DFA是的一個特例。
2、若二個正規式所表示的相同，則認為二者是等價的。
3、一個字集是正規的，當且僅當它可由所。
解答 1、NFA 2、正規集 3、DFA（NFA）所識別
四、判斷題
1、一個有限狀態自動機中，有且僅有一個唯一終態。（）
2、設r和s分別是正規式，則有L（r|s）=L(r)|L(s)。（）
3、自動機M和M′的狀態數不同，則二者必不等價。（）
4、確定的自動機以及不確定的自動機都能正確地識別正規集。（）
5、對任意一個右線性文法G，都存在一個NFA M，滿足L(G)=L(M)。（）
6、對任意一個右線性文法G，都存在一個DFA M，滿足L(G)=L(M)。（）
7、對任何正規表達式e，都存在一個NFA M，滿足L(G)=L(e)。（）
8、對任何正規表達式e，都存在一個DFA M，滿足L(G)=L(e)。（）
解答 1 、2、3、錯 4、5、6、7、8、正確
五、基本題
1、設M＝（{x,y}, {a,b}, f,x,{y}）為一非確定的有限自動機，其中f定義如下：
f（x,a）＝{x,y} f（x,b）＝{y}
f（y,a）＝φ f（y,b）＝{x,y}
試構造相應的確定有限自動機M′。
解答：對照自動機的定義M=(S,Σ,f,S0,Z)，由f的定義可知f(x,a)、f(y,b)均為多值函數，所以是一非確定有限自動機，先畫出NFA M相應的狀態圖，如圖3-6-2所示。

用子集法構造狀態轉換矩陣表3-6-3所示。
I Ia Ib
{x} {x,y} {y}
{y} — {x,y}
{x,y} {x,y} {x,y}
將轉換矩陣中的所有子集重新命名而形成表3-6-4所示的狀態轉換矩陣。
表3-6-4 狀態轉換矩陣
a b
0 2 1
1 — 2
2 2 2
即得到M′=（{0,1,2}, {a,b}, f,0, {1,2}），其狀態轉換圖如圖3-6-5所示。

將圖3-6-5的DFA M′最小化。首先，將M′的狀態分成終態組{1，2}與非終態組{0}；其次，考察{1,2}。由於{1,2}a={1,2}b={2}⊂{1,2}，所以不再將其劃分了，也即整個劃分只有兩組{0}，{1,2}：令狀態1代表{1,2}，即把原來到達2的弧都導向1，並刪除狀態2。最後，得到如圖3-6-6所示化簡DFA M′。

2、對給定正規式b*（d|ad）（b|ab）+，構造其NFA M；
解答：首先用A+=AA*改造正規式得：b*(d|ad)(b|ab)(b|ab)*；其次，構造該正規式的NFA M，如圖3-6-7所示。
求採納為滿意回答。
希望能解決您的問題。

❿ 語法分析器的介紹

在計算機科學和語言學中，語法分析（英：Syntactic analysis，也叫Parsing）是根據某種給定的形式文法對由單詞序列（如英語單詞序列）構成的輸入文本進行分析並確定其語法結構的一種過程。1語法分析器（Parser）通常是作為編譯器或解釋器的組件出現的，它的作用是進行語法檢查、並構建由輸入的單片語成的數據結構（一般是語法分析樹、抽象語法樹等層次化的數據結構）。語法分析器通常使用一個獨立的詞法分析器從輸入字元流中分離出一個個的「單詞」，並將單詞流作為其輸入。實際開發中，語法分析器可以手工編寫，也可以使用工具（半）自動生成。

導航:首頁 > 源碼編譯 > 編譯器分析樹

編譯器分析樹

與編譯器分析樹相關的資料