编译器分析树_什么是编译器

❶ emacs编辑器的下载及使用安装问题

win下使用emacs不会是个好选择，但是也看个人喜好。

在xp和win7下使用过emacs，win8如此高大上的系统，没用过。想来emacs在win8下也不会有太大问题。下载区gun的主页就行了，这里有emacs for windows的gun下载主页：

http://ftp.gnu.org/gnu/emacs/windows/

向下拖，最后的列表，建议下emacs24.3版本。emacs的更新是很实在的，不会说像一些国产商业软件一样，屁大点事都弄个更新，eamcs每次更新都会有很大的变化，而且新版本稳定后也更好用。

emacs在win中安装有2中方式：直接下载二进制文件和下载源码编译。

一般来说，直接从上面的连接下载编译好的emacs就行了，这个一般是用MGwin在windows下编译的。自己弄的话，下个mgwin或cygwin，手动make编译，但不推荐这么做，挺折腾，各种依赖包，时间也很长。如果真想体验一把，请另行网络，有教程。

eamcs想在win下用的舒坦对新手来说不是件容易的事。不清楚是谁鼓动你在win下用emacs写C的。如果你没有特殊的需求，比如，主要开发工作针对linux，建议你直接使用VS来写VC，方便直接，开箱即用。

emacs是个geek味道很浓的东西，具体体现就是：

没插件啥也干不好
插件安装千奇百怪没有统一的方式，好在24.3的elpa一定程度上缓解了到处找插件的问题，但是治标不治本。
配置过程是在使用elisp编程，门槛相对较高，起码比鼠标点来点去高不少
插件之间存在一些冲突，因为都是爱好者开发的，单个插件可能经过测试，但是这些东西放一块好不好使，只有天知道。当然，知名的插件肯定是没问题的，但是那些偏门的东东，就不好说了。
emacs使用，包括插件自带的说明文档，都不可能有中文支持，纯英文虽然很练水平，但是对一些人，起码是我来说，很头痛。

基本就是这些。不是说emacs有什么不好，都说高手才会使用emacs，所以这个东西，从来都不是对新手准备的，对新人相当的不友好。如果你用过vim，可能会觉着emacs初始的工作方式比vim好太多，起码不会按个esc就啥也输不进去。但是相信我，你被骗了，真的。想让此等神器按你的方式工作，不折腾个欲仙欲死是不大可能了。geek么，就喜欢折腾，如果你是这样的人，恭喜你，你找到了世界上最好玩的玩具，它能从各方面满足你折腾与探索之心，尽情享吧。

如果你还是想用eamcs，体验下这个gnu的拳头产品的魅力，下面可以给点建议：

下载emacs后，请完成最基本的配置，找到.emacs.d和.emacs文件所在位置，这个在windows下很多人一头雾水。如果有疑惑，请网络 emacs中文网。推荐用注册表方式指定home目录。
做好心理准备，最少在一星期之内，你不可能用它开始工作。
花半个小时看emacs toturial。emacs刚启动的欢迎界面上有连接，也可以在help菜单下找到
熟悉了基本，可以去网上点配置贴到.emacs文件中，顺带瞅瞅elisp的尊容，以后要经常和它打交道。在这个过程中，你会见识到emacs在几行elisp代码下翻天覆地的变化，起码表面上看起来，完全就是2个东西。
推荐篇文章：“一年成为eamcs高手”http://blog.csdn.net/redguardtoo/article/details/7222501 想少走弯路，可以严格按照上面说的做。
如果你看了第5条，觉着有道理，请下载牛人的配置,去github逛逛吧，你需要一个gitextension，请自行安装，这个可以帮你在后面方便地管理你的.eamcs.d文件夹。配置新手推荐 emacs-starter-kit或者prelude，它们都在github上，请自行搜索。我用的是第二个，配置比较基础，感觉还不错。

如果你已经会用牛人配置的基本功能了而且还对emacs有很大的热情，可以着手配置C开发环境了。

下面说说emacs下C开发环境的搭建，基本的插件有这几个：

ecb cedet tabbar tabbar-ruler yasnippet auto-complete

分别说说：

ecb，emacs code browser，用于浏览代码，大致看起来是这个样子：
具体安装一言难尽，请多网络谷歌。这个时候网络不一定好使，google相对可靠的多。这个是emacs插件的配置，还缺mgwin，这个要额外配置，添加exec-path。具体请网络，我没配过，我emacs都是org写文档用的，偶尔骚包用eamcs写，回头VS编译。

如果上面的你都折腾过了，你应该会发现新的问题：老子折腾了这么久，为什么感觉还没个VC6+VAX来的实在？问题出在cedet的组件semantic上。它负责进行语法分析，生成tags，显示函数，进行跳转和补全。但是这个东西是基于静态分析的且是纯elisp实现的，效率上可想而知。VS的补全是动态进行的且它本身可以利用编译器的分析结果，所以速度快，补全能力很强。semantic则相反，它不能利用编译器生成的语法分析树，自己扫描静态文件，这个效率可想而知。解决方法么，在linux下有个GCC的修改版本，可以将分析结果借用给semantic，貌似要额外进行一些配置，这样配置过后，semantic就会快很多，起码不会出现打开个C文件，分析半分钟这么夸张。同样的问题出在auto-complete和yasnippet上。它们同样没有编译器分析结果做支持，所以补全基本是基于缩略词的，相当的不智能。这些是emacs作为C开发环境的缺点。

这些问题的出现，并不是emacs本身不够强，实在是没有大厂商的支持，靠一群爱好者进行义务开发和维护，很大程度上限制了eamcs作为IDE上的能力。本身这个也不是大问题，emacs被爱好者称为操作系统，IDE只是人们对它的一个期望罢了，这本来也不是它的强项，通用和扩展性才是它的灵魂。用emacs和VS比C开发效率，这本来就不公平，有本事你也去linux命令行跑跑看嘛。

lz加油吧，每个喜爱emacs并为之付出的人，都会得到回报。不要太过计较一时的得失，emacs绝对是值得信赖的工具，值得你为他付出。这个道理其实很简单：除了emacs，你再也找不出一个程序，能够完全按照你的意愿工作。

emacs的神奇来源于它惊天地泣鬼神的设计理念：编写lisp解释器，解释elisp语言，来制作一个编辑器，这本来就是天才的构想。在emacs的世界里，绝大多数的功能都是lisp函数的求值带来的。任何的按键，都会触发解释器对elisp函数或C函数的求值，运行，然后产生响应的行为。这点可以在eamcs中使用C-h k 来验证，这个快捷键绑定到了describe-key，可以描述你的按键所触发的函数，它的功能和所在的文件，你可以很方便地进入这个文件内部观察elisp实现。emacs根本就是个解释器+脚本语言的黄金搭档。通过elisp编程，你能控制emacs的任何行为，自己编写elisp函数实现一些自动化操作，比如通过一个按键自动格式化当前buffer中的所有代码，编写正则匹配函数并绑定到响应快捷键，这样可以通过按下你绑定的按键序列，让emacs自动隐藏指定的行，比如注释，自动替换选中区域的指定字符序列等等。

总之，emacs无所不能，这个源于它奇思妙想的伟大设计。

以上。

❷ 典型的编译器可以划分成几个主要的逻辑阶段

这是我们今天的作业，

典型的编译器可以划分成七个主要的逻辑阶段，分别是词法分析器、语法分析器、语义分析器、中间代码生成器、独立于机器的代码优化器、代码生成器、依赖于机器的代码优化器。各阶段的主要功能：

（1）词法分析器：词法分析阅读构成源程序的字符流，按编程语言的词法规则把它们组成词法记号流。

（2）语法分析器：按编程语言的语法规则检查词法分析输出的记号流是否符合这些规则，并依据这些规则所体现出的该语言的各种语言构造的层次性，用各记号的第一元建成一种树形的中间表示，这个中间表示用抽象语法的方式描绘了该记号流的语法情况。

（3）语义分析器：使用语法树和符号表中的信息，依据语言定义来检查源程序的语义一致性，以保证程序各部分能有意义地结合在一起。它还收集类型信息，把它们保存在符号表或语法树中。

（4）中间代码生成器:为源程序产生更低级的显示中间表示，可以认为这种中间表示是一种抽象机的程序。

（5）独立于机器的代码优化器：试图改进中间代码，以便产生较好的目标代码。通常，较好是指执行较快，但也可能是其他目标，如目标代码较短或目标代码执行时能耗较低。

（6）代码生成器：取源程序的一种中间表示作为输入并把它映射到一种目标语言。如果目标语言是机器代码，则需要为源程序所用的变量选择寄存器或内存单元，然后把中间指令序列翻译为完成同样任务的机器指令序列。

（7）依赖于机器的代码优化器：试图改进目标机器代码，以便产生较好的目标机器代码。

❸ 什么是编译器

编译器

编译器是一种特殊的程序，它可以把以特定编程语言写成的程序变为机器可以运行的机器码。我们把一个程序写好，这时我们利用的环境是文本编辑器。这时我程序把程序称为源程序。在此以后程序员可以运行相应的编译器，通过指定需要编译的文件的名称就可以把相应的源文件（通过一个复杂的过程）转化为机器码了。

[编辑]编译器工作方法
首先编译器进行语法分析，也就是要把那些字符串分离出来。然后进行语义分析，就是把各个由语法分析分析出的语法单元的意义搞清楚。最后生成的是目标文件，我们也称为obj文件。再经过链接器的链接就可以生成最后的可执行代码了。有些时候我们需要把多个文件产生的目标文件进行链接，产生最后的代码。我们把一过程称为交叉链接。

一个现代编译器的主要工作流程如下：

* 源程序（source code）→预处理器（preprocessor）→编译器（compiler）→汇编程序（assembler）→目标程序（object code）→连接器（链接器，Linker）→可执行程序（executables）

工作原理

编译是从源代码（通常为高级语言）到能直接被计算机或虚拟机执行的目标代码（通常为低级语言或机器言）。然而，也存在从低级语言到高级语言的编译器，这类编译器中用来从由高级语言生成的低级语言代码重新生成高级语言代码的又被叫做反编译器。也有从一种高级语言生成另一种高级语言的编译器，或者生成一种需要进一步处理的的中间代码的编译器（又叫级联）。

典型的编译器输出是由包含入口点的名字和地址以及外部调用（到不在这个目标文件中的函数调用）的机器代码所组成的目标文件。一组目标文件，不必是同一编译器产生，但使用的编译器必需采用同样的输出格式，可以链接在一起并生成可以由用户直接执行的可执行程序。

编译器种类

编译器可以生成用来在与编译器本身所在的计算机和操作系统（平台）相同的环境下运行的目标代码，这种编译器又叫做“本地”编译器。另外，编译器也可以生成用来在其它平台上运行的目标代码，这种编译器又叫做交叉编译器。交叉编译器在生成新的硬件平台时非常有用。“源码到源码编译器”是指用一种高级语言作为输入，输出也是高级语言的编译器。例如: 自动并行化编译器经常采用一种高级语言作为输入，转换其中的代码，并用并行代码注释对它进行注释（如OpenMP）或者用语言构造进行注释（如FORTRAN的DOALL指令）。

预处理器（preprocessor）

作用是通过代入预定义等程序段将源程序补充完整。

编译器前端（frontend）

前端主要负责解析（parse）输入的源程序，由词法分析器和语法分析器协同工作。词法分析器负责把源程序中的‘单词’（Token）找出来,语法分析器把这些分散的单词按预先定义好的语法组装成有意义的表达式，语句，函数等等。例如“a = b + c;”前端词法分析器看到的是“a, =, b , +, c;”，语法分析器按定义的语法，先把他们组装成表达式“b + c”，再组装成“a = b + c”的语句。前端还负责语义（semantic checking）的检查，例如检测参与运算的变量是否是同一类型的，简单的错误处理。最终的结果常常是一个抽象的语法树（abstract syntax tree，或 AST），这样后端可以在此基础上进一步优化，处理。

编译器后端（backend）

编译器后端主要负责分析，优化中间代码（Intermediate representation）以及生成机器代码（Code Generation）。

一般说来所有的编译器分析，优化，变型都可以分成两大类：函数内（intraproceral）还是函数之间（interproceral）进行。很明显，函数间的分析，优化更准确，但需要更长的时间来完成。

编译器分析（compiler analysis）的对象是前端生成并传递过来的中间代码，现代的优化型编译器（optimizing compiler）常常用好几种层次的中间代码来表示程序，高层的中间代码（high level IR）接近输入的源程序的格式，与输入语言相关（language dependent），包含更多的全局性的信息，和源程序的结构；中层的中间代码（middle level IR）与输入语言无关，低层的中间代码(Low level IR)与机器语言类似。不同的分析，优化发生在最适合的那一层中间代码上。

常见的编译分析有函数调用树（call tree），控制流程图（Control flow graph），以及在此基础上的变量定义－使用，使用－定义链（define-use/use-define or u-d/d-u chain），变量别名分析（alias analysis），指针分析（pointer analysis），数据依赖分析（data dependence analysis）等等。

上述的程序分析结果是编译器优化（compiler optimization）和程序变形（compiler transformation）的前提条件。常见的优化和变新有：函数内嵌（inlining），无用代码删除（Dead code elimination），标准化循环结构（loop normalization），循环体展开（loop unrolling），循环体合并，分裂（loop fusion，loop fission），数组填充（array padding），等等。优化和变形的目的是减少代码的长度，提高内存（memory），缓存（cache）的使用率，减少读写磁盘，访问网络数据的频率。更高级的优化甚至可以把序列化的代码（serial code）变成并行运算，多线程的代码（parallelized，multi-threaded code）。

机器代码的生成是优化变型后的中间代码转换成机器指令的过程。现代编译器主要采用生成汇编代码（assembly code）的策略，而不直接生成二进制的目标代码（binary object code）。即使在代码生成阶段，高级编译器仍然要做很多分析，优化，变形的工作。例如如何分配寄存器（register allocatioin），如何选择合适的机器指令（instruction selection），如何合并几句代码成一句等等。

❹ 编译原理笔记9：语法分析树、语法树、二义性的消除

语法分析树和语法树不是一种东西 。习惯上，我们把前者叫做“具体语法树”，其能够体现推导的过程；后者叫做“抽象语法树”，其不体现过程，只关心最后的结果。

语法分析树是语言推导过程的图形化表示方法。这种表示方法反映了语言的实质以及语言的推导过程。

定义：对于 CFG G 的句型，分析树被定义为具有下述性质的一棵树：

推导，有最左推导和最右推导，这两种推导方式在推导过程中的分析树可能不同，但因最终得到的句子是相同的，所以最终的分析树是一样的。

分析树能反映句型的推导过程，也能反映句型的结构。然而实际上，我们往往不关心推导的过程，而只关心推导的结果。因此，我们要对 分析树 进行改造，得到 语法树 。语法树中全是终结符，没有非终结符。而且语法树中没有括号

定义：

说白了，语法树这玩意，就一句话： 叶子全是操作数，内部全是操作符 ，树里没有非终结符也不能有括号。

语法树要表达的东西，是操作符（运算）作用于操作数（运算对象）

举俩例子吧：

【例】： -(id+id) 的语法树：

【例】：-id+id 的语法树：

显然，我们从上面这两个语法树中，直接就能观察出来它们的运算顺序。

【例】：句型 if C then s1 else s2

二义性问题：一个句子可能对应多于一棵语法树。

【例】：设文法 G： E → E+E | E*E | (E) | -E | id

则，句子 id+id*id、id+id+id 可能的分析树有：

在该例中，虽然 id+id+id 的 “+” 的结合性无论左右都不会影响结果。但万一，万一“+”的含义变成了“减法”，那么左结合和右结合就会引起很大的问题了。

我们在这里讲的“二义性”的“义”并非语义——我们现在在学习的内容是“语法分析器”，尚未到需要研究语言背后含义的阶段。

我们现在讲的“二义性”指的是一个句子对应多种分析树。

二义性的体现，是文法对同一句子有不止一棵分析树。这种问题由【句子产生过程中的某些推导有多于一种选择】引起。悬空 else 问题就可以很好地体现这种【超过一种选择】带来的二义性问题，示例如下。

看下面这么个例子。。

（其实，我感觉这个其实比较像是“说话大喘气”带来的理解歧义问题。。。）上面的产生式中并没体现出来该咋算分一块，所以两种完全不同的句子结构都是合法的。

二义性问题是有救的，大概有以下这三种办法：

这些办法的核心，其实都是将优先级和结合性说明白。

核心：把优先级和结合性说明白

既然要说明白，那就不能让一个非终结符可以直接在当次推导中能推出会带来优先级和结合性歧义的东西。（对分析树的一个内部节点，不会有出现在其下面的分支是相同的非终结符的情况。如果有得选，那就有得歧义了。没得选才能确定地一路走到黑）

改写为非二义文法的二义文法大概有下面这几个特点：

改写的关键步骤：

【例】改写下面的二义文法为非二义文法。图右侧是要达成的优先级和结合性

改写的核心其实就两句话：

所以能够得到非终结符与运算的对应关系（因为不同的运算有不同的优先级，我们想要引入多个优先级就要引入多个新的非终结符。这样每个非终结符就可以负责一个优先级的运算符号，也就是说新的非终结符是与运算有关系的了。因此这里搞出来了“对应关系”四个字）如下：

优先级由低到高分别是 +、 、-，而距离开始符号越近，优先级越低。因此在这里的排序也可以+ -顺序。每个符号对应一层的非终结符。根据所需要的结合性，则可确定是左递归还是右递归，以确定新的产生式长什么样子

【例】：规定优先级和结合性，写出改写的非二义文法

我们已经掌握了一种叫做【改写】的工具，能让我们消除二义性。接下来我们就要用这个工具来尝试搞搞悬空 else 问题！

悬空 else 问题出现的原因是 then 数量多于 else，让 else 有多个可以结合的 then。在二义文法中，由于选哪两个 then、else 配对都可以，故会引起出现二义的情况。在这里，我们规定 else 右结合，即与左边最靠近的 then 结合。

为改写此文法，可以将 S 分为完全匹配（MS）和不完全匹配（UMS）两类。在 MS 中体现 then、else 个数相等即匹配且右结合；在UMS 中 then、else 不匹配，体现 else 右结合。

【例】：用改写后的文法写一个条件语句

经过检查，无法再根据文法写出其他分析树，故已经消除了二义性

虽然二义文法会导致二义性，但是其并非一无是处。其有两个显着的优点：

在 Yacc 中，我们可以直接指定优先级、结合性而无需自己重写文法。

left 表示左结合，right 表示右结合。越往下的算符优先级越高。

嗯就这么简单。。。

我们其实可以把语言本身定义成没有优先级和结合性的。。然后所有的优先、结合都交由括号进行控制，哪个先算就加括号。把一个过程的结束用明确的标志标记出来。

比如在 Ada 中：

在 Pascal 中，给表达式加括号：

❺ 编译器的工作分为哪几个阶段

编译器就是一个普通程序，没什么大不了的
什么是编译器？

编译器是一个将高级语言翻译为低级语言的程序。

首先我们一定要意识到编译器就是一个普通程序，没什么大不了的。

在没有弄明白编译器如何工作之前你可以简单的把编译器当做一个黑盒子，其作用就是输入一个文本文件输出一个二进制文件。

基本上编译器经过了以下几个阶段，等等，这句话教科书上也有，但是我相信很多同学其实并没有真正理解这几个步骤到底在说些什么，为了让你彻底理解这几个步骤，我们用一个简单的例子来讲解。

假定我们有一段程序：

while (y < z) {
int x = a + b;
y += x;
}
那么编译器是怎样把这一段程序人类认识的程序转换为CPU认识的二进制机器指令呢？

提取出每一个单词：词法分析
首先编译器要把源代码中的每个“单词”提取出来，在编译技术中“单词”被称为token。其实不只是每个单词被称为一个token，除去单词之外的比如左括号、右括号、赋值操作符等都被称为token。

从源代码中提取出token的过程就被称为词法分析，Lexical Analysis。

经过一遍词法分析，编译器得到了以下token：

T_While while
T_LeftParen （
T_Identifier y
T_Less <
T_Identifier z
T_RightParen )
T_OpenBrace {
T_Int int
T_Identifier x
T_Assign =
T_Identifier a
T_Plus +
T_Identifier b
T_Semicolon ;
T_Identifier y
T_PlusAssign +=
T_Identifier x
T_Semicolon ;
T_CloseBrace }
就这样一个磁盘中保存的字符串源代码文件就转换为了一个个的token。

这些token想表达什么意思：语法分析
有了这些token之后编译器就可以根据语言定义的语法恢复其原本的结构，怎么恢复呢？

原来，编译器在扫描出各个token后根据规则将其用树的形式表示出来，这颗树就被称为语法树。

语法树是不是合理的：语义分析
有了语法树后我们还要检查这棵树是不是合法的，比如我们不能把一个整数和一个字符串相加、比较符左右两边的数据类型要相同，等等。

这一步通过后就证明了程序合法，不会有编译错误。

❻ 分析树和语法树的区别编译原理

如果给出短语等名词的形式化的定义，便较难理解，不好求。我们通过构造语法树来求解。首先你应该会根据文法将所给句型构造成语法树的形式，即根据文法怎样推导出句型E+T*F。如果你有数据结构二叉树基础的话这很简单就构造出来了。构造出语法树后，求短语看根节点，有T，和E。则短语为：E+T*F,T*F，而直接短语是指能直接推出叶子节点的根所对应的短语，可知该节点为T，直接短语为：T*F。句柄是最左直接短语，可知为：T*F。

❼ 请问大家在实际项目中用到过编译原理吗

我跟你说，编译原理太有用了。
我是做手机游戏的，现在做一个游戏引擎。既然是引擎，就需要提供抽象的东西给上层使用。这里，我引入了脚本系统。
这个脚本系统包括一堆我根据实际需求自行设计的指令集，包括基本的输入输出，四则运算，系统功能调用，函数声明，调用等等（其实你要是用过lua或者其他游戏脚本你就知道了。）整个结构包括指令集、编译器、虚拟机等部分。这样，引擎提供一些基础服务，比如绘图，计算位置等，脚本就可以非常简单控制游戏。甚至快速构建新游戏。你应该知道QUAKE引擎吧？
这里提供给你一个计算器的小程序，应用了EBNF理论，支持表达式，比如(2+3*6)*4+4，你自己体验一下它的简洁和强大。
/*
simple integer arithmetic calculator according to the EBNF
<exp> -> <term>{<addop><term>}
<addop>->+|-
<term>-><factor>{<mulop><factor>}
<mulop> -> *
<factor> -> ( <exp> )| Number
Input a line of text from stdin
Outputs "Error" or the result.
*/
#include <stdio.h>
#include <stdlib.h>
#include <ctype.h>

char token;/*global token variable*/
/*function prototypes for recursive calls*/
int exp(void);
int term(void);
int factor(void);

void error(void)
{
fprintf(stderr,"Error\n");
exit(1);
}

void match(char expectedToken)
{
if(token==expectedToken)token=getchar();
else error();
}

main()
{
int result;
token = getchar();/*load token with first character for lookahead*/
result = exp();
if(token=='\n')/*check for end of line */
printf("Result = %d\n",result);
else error();/*extraneous cahrs on line*/
return 0;
}

int exp(void)
{
int temp = term();
while((token=='+')||(token=='-'))
switch(token)
{
case '+':
match('+');
temp+=term();
break;
case '-':
match('-');
temp-=term();
break;
}
return temp;
}

int term(void)
{
int temp = factor();
while (token=='*')
{
match('*');
temp*=factor();
}
return temp;
}

int factor(void)
{
int temp;
if(token=='('){
match('(');
temp = exp();
match(')');
}
else if(isdigit(token)){
ungetc(token,stdin);
scanf("%d",&temp);
token = getchar();
}
else error();
return temp;
}
其实编程学到一定程度总是没有方向了，总是在问学C/C++下一步怎么学啊，觉得掌握了该语言了云云，实际上，你缺少的就是这些软的东西，缺少的是理论。
编译原理不是单一的理论，它涵盖了一个niche，里面可以学到很多其他知识，比如正则表达式、BNF、EBNF、分析树、语法树还有很多运行时环境等知识
这些给你带来的是非常丰厚的回报。不说多了，学完运行时，你就会加深对C++语言本身的理解。

❽ 编译器的组成及各部分的功能及作用

1. 词法分析词法分析器根据词法规则识别出源程序中的各个记号（token），每个记号代表一类单词（lexeme）。源程序中常见的记号可以归为几大类：关键字、标识符、字面量和特殊符号。词法分析器的输入是源程序，输出是识别的记号流。词法分析器的任务是把源文件的字符流转换成记号流。本质上它查看连续的字符然后把它们识别为“单词”。 2. 语法分析语法分析器根据语法规则识别出记号流中的结构（短语、句子），并构造一棵能够正确反映该结构的语法树。 3. 语义分析语义分析器根据语义规则对语法树中的语法单元进行静态语义检查，如果类型检查和转换等，其目的在于保证语法正确的结构在语义上也是合法的。 4. 中间代码生成中间代码生成器根据语义分析器的输出生成中间代码。中间代码可以有若干种形式，它们的共同特征是与具体机器无关。最常用的一种中间代码是三地址码，它的一种实现方式是四元式。三地址码的优点是便于阅读、便于优化。 5. 中间代码优化优化是编译器的一个重要组成部分，由于编译器将源程序翻译成中间代码的工作是机械的、按固定模式进行的，因此，生成的中间代码往往在时间和空间上有很大浪费。当需要生成高效目标代码时，就必须进行优化。 6. 目标代码生成目标代码生成是编译器的最后一个阶段。在生成目标代码时要考虑以下几个问题：计算机的系统结构、指令系统、寄存器的分配以及内存的组织等。编译器生成的目标程序代码可以有多种形式：汇编语言、可重定位二进制代码、内存形式。 7 符号表管理符号表的作用是记录源程序中符号的必要信息，并加以合理组织，从而在编译器的各个阶段能对它们进行快速、准确的查找和操作。符号表中的某些内容甚至要保留到程序的运行阶段。 8 出错处理用户编写的源程序中往往会有一些错误，可分为静态错误和动态错误两类。所谓动态错误，是指源程序中的逻辑错误，它们发生在程序运行的时候，也被称作动态语义错误，如变量取值为零时作为除数，数组元素引用时下标出界等。静态错误又可分为语法错误和静态语义错误。语法错误是指有关语言结构上的错误，如单词拼写错、表达式中缺少操作数、begin和end不匹配等。静态语义错误是指分析源程序时可以发现的语言意义上的错误，如加法的两个操作数中一个是整型变量名，而另一个是数组名等。

❾ 编译原理题目

习题一、单项选择题
1、将编译程序分成若干个“遍”是为了。
a．提高程序的执行效率
b．使程序的结构更加清晰
c．利用有限的机器内存并提高机器的执行效率
d．利用有限的机器内存但降低了机器的执行效率
2、构造编译程序应掌握。
a．源程序 b．目标语言
c．编译方法 d．以上三项都是
3、变量应当。
a．持有左值 b．持有右值
c．既持有左值又持有右值 d．既不持有左值也不持有右值
4、编译程序绝大多数时间花在上。
a．出错处理 b．词法分析
c．目标代码生成 d．管理表格
5、不可能是目标代码。
a．汇编指令代码 b．可重定位指令代码
c．绝对指令代码 d．中间代码
6、使用可以定义一个程序的意义。
a．语义规则 b．词法规则
c．产生规则 d．词法规则
7、词法分析器的输入是。
a．单词符号串 b．源程序
c．语法单位 d．目标程序
8、中间代码生成时所遵循的是- 。
a．语法规则 b．词法规则
c．语义规则 d．等价变换规则
9、编译程序是对。
a．汇编程序的翻译 b．高级语言程序的解释执行
c．机器语言的执行 d．高级语言的翻译
10、语法分析应遵循。
a．语义规则 b．语法规则
c．构词规则 d．等价变换规则
解答
1、将编译程序分成若干个“遍”是为了使编译程序的结构更加清晰，故选b。
2、构造编译程序应掌握源程序、目标语言及编译方法等三方面的知识，故选d。
3、对编译而言，变量既持有左值又持有右值，故选c。
4、编译程序打交道最多的就是各种表格，因此选d。
5、目标代码包括汇编指令代码、可重定位指令代码和绝对指令代码3种，因此不是目标代码的只能选d。
6、词法分析遵循的是构词规则，语法分析遵循的是语法规则，中间代码生成遵循的是语义规则，并且语义规则可以定义一个程序的意义。因此选a。
7、b 8、c 9、d 10、c
二、多项选择题
1、编译程序各阶段的工作都涉及到。
a．语法分析 b．表格管理 c．出错处理
d．语义分析 e．词法分析
2、编译程序工作时，通常有阶段。
a．词法分析 b．语法分析 c．中间代码生成
d．语义检查 e．目标代码生成
解答
1．b、c 2. a、b、c、e
三、填空题
1、解释程序和编译程序的区别在于。
2、编译过程通常可分为5个阶段，分别是、语法分析、代码优化和目标代码生成。 3、编译程序工作过程中，第一段输入是，最后阶段的输出为程序。
4、编译程序是指将程序翻译成程序的程序。解答
是否生成目标程序 2、词法分析中间代码生成 3、源程序目标代码生成 4、源程序目标语言
一、单项选择题
1、文法G：S→xSx|y所识别的语言是。
a. xyx b. (xyx)* c. xnyxn(n≥0) d. x*yx*
2、文法G描述的语言L(G)是指。
a. L(G)={α|S+ ⇒α , α∈VT*} b. L(G)={α|S*⇒α, α∈VT*}
c. L(G)={α|S*⇒α,α∈(VT∪VN*)} d. L(G)={α|S+ ⇒α, α∈(VT∪VN*)}
3、有限状态自动机能识别。
a. 上下文无关文法 b. 上下文有关文法
c.正规文法 d. 短语文法
4、设G为算符优先文法，G的任意终结符对a、b有以下关系成立。
a. 若f(a)>g(b)，则a>b b.若f(a)<g(b)，则a<b
c. a~b都不一定成立 d. a~b一定成立
5、如果文法G是无二义的，则它的任何句子α 。
a. 最左推导和最右推导对应的语法树必定相同
b. 最左推导和最右推导对应的语法树可能不同
c. 最左推导和最右推导必定相同
d. 可能存在两个不同的最左推导，但它们对应的语法树相同
6、由文法的开始符经0步或多步推导产生的文法符号序列是。
a. 短语 b.句柄 c. 句型 d. 句子
7、文法G：E→E+T|T
T→T*P|P
P→(E)|I
则句型P+T+i的句柄和最左素短语为。
a.P+T和i b. P和P+T c. i和P+T+i d.P和T
8、设文法为：S→SA|A
A→a|b
则对句子aba，下面是规范推导。
a. SÞSAÞSAAÞAAAÞaAAÞabAÞaba
b. SÞSAÞSAAÞAAAÞAAaÞAbaÞaba
c. SÞSAÞSAAÞSAaÞSbaÞAbaÞaba
d. SÞSAÞSaÞSAaÞSbaÞAbaÞaba
9、文法G：S→b|∧(T)
T→T,S|S
则FIRSTVT(T) 。
a. {b,∧,(} b. {b,∧,)} c.{b,∧,(,，} d.{b,∧,),，}
10、产生正规语言的文法为。
a. 0型 b. 1型 c. 2型 d. 3型
11、采用自上而下分析，必须。
a. 消除左递归 b. 消除右递归 c. 消除回溯 d. 提取公共左因子
12、在规范归约中，用来刻画可归约串。
a. 直接短语 b. 句柄 c. 最左素短语 d. 素短语
13、有文法G：E→E*T|T
T→T+i|i
句子1+2*8+6按该文法G归约，其值为。
a. 23 B. 42 c. 30 d. 17
14、规范归约指。
a. 最左推导的逆过程 b. 最右推导的逆过程
c. 规范推导 d. 最左归约的逆过程
[解答]
1、选c。
2、选a。
3、选c。
4、虽然a与b没有优先关系，但构造优先函数后，a与b就一定存在优先关系了。所以，由f(a)>g)(b)或f(a)<g(b)并不能判定原来的a与b之间是否存在优先关系：故选c。
5、如果文法G无二义性，则最左推导是先生长右边的枝叶：对于d，如果有两个不同的是了左推导，则必然有二义性。故选a。
6、选c。
7、由图2-8-1的语法树和优先关系可以看出应选b。

8、规范推导是最左推导，故选d。
9、由T→T,…和T→(… 得FIRSTVT(T))={(,，)}；
由T→S得FIRSTVT(S)⊂FIRSTVT(T)，而FIRSTVT(S)={b,∧,(}；即
FIRSTVT(T)={b,∧,(,，}；因此选c。
10、d 11、c 12、b 13、b 14、b
二、多项选择题
1、下面哪些说法是错误的。
a. 有向图是一个状态转换图 b. 状态转换图是一个有向图
c.有向图是一个DFA d.DFA可以用状态转换图表示
2、对无二义性文法来说，一棵语法树往往代表了。
a. 多种推导过程 b. 多种最左推导过程 c.一种最左推导过程
d.仅一种推导过程 e.一种最左推导过程
3、如果文法G存在一个句子，满足下列条件之一时，则称该文法是二义文法。
a. 该句子的最左推导与最右推导相同
b. 该句子有两个不同的最左推导
c. 该句子有两棵不同的最右推导
d. 该句子有两棵不同的语法树
e.该句子的语法树只有一个
4、有一文法G：S→AB
A→aAb|ε
B→cBd|ε
它不产生下面集合。
a. {anbmcndm|n,m≥0} b. {anbncmdm|n,m>0}
c. {anbmcmdn|n,m≥0} d. {anbncmdm|n,m≥0}
e. {anbncndn|n≥0}
5、自下而上的语法分析中，应从开始分析。
a. 句型 b. 句子 c. 以单词为单位的程序
d. 文法的开始符 e. 句柄
6、对正规文法描述的语言，以下有能力描述它。
a.0型文法 b.1型文法 c.上下文无关文法 d.右线性文法 e.左线性文法
解答 1、e、a、c 2、a、c、e 3、b、c、d 4、a、c 5、b、c 6、a、b、c、d、e
三、填空题
1、文法中的终结符和非终结符的交集是。词法分析器交给语法分析器的文法符号一定是，它一定只出现在产生式的部。
2、最左推导是指每次都对句型中的非终结符进行扩展。
3、在语法分析中，最常见的两种方法一定是分析法，另一是分析法。
4、采用语法分析时，必须消除文法的左递归。
5、树代表推导过程，树代表归约过程。
6、自下而上分析法采用、归约、错误处理、等四种操作。
7、Chomsky把文法分为种类型，编译器构造中采用和文法，它们分别产生和语言，并分别用和自动机识别所产生的语言。
解答 1、空集终结符右
2、最左
3、自上而上自下而上
4、自上而上
5、语法分析
6、移进接受
7、4 2 型 3型上下文无关语言正规语言下推自动机有限
四、判断题
1、文法 S→aS|bR|ε描述的语言是(a|bc)* ( )
R→cS
2、在自下而上的语法分析中，语法树与分析树一定相同。（）
3、二义文法不是上下文无关文法。（）
4、语法分析时必须先消除文法中的左递归。（）
5、规范归约和规范推导是互逆的两个过程。（）
6、一个文法所有句型的集合形成该文法所能接受的语言。（）
解答 1、对 2、错 3、错 4、错 5、错 6、错
五、简答题
1、句柄 2、素短语 3、语法树 4、归约 5、推导
[解答]
1、句柄：一个句型的最左直接短语称为该句型的句柄。
2、素短语：至少含有一个终结符的素短语，并且除它自身之外不再含任何更小的素短语。
3、语法树：满足下面4个条件的树称之为文法G[S]的一棵语法树。
①每一终结均有一标记，此标记为VN∪VT中的一个符号；
②树的根结点以文法G[S]的开始符S标记；
③若一结点至少有一个直接后继，则此结点上的标记为VN中的一个符号；
④若一个以A为标记的结点有K个直接后继，且按从左至右的顺序，这些结点的标记分别为X1,X2,…,XK，则A→X1,X2,…,XK，必然是G的一个产生式。
4、归约：我们称αγβ直接归约出αAβ，仅当A→γ 是一个产生式，且α、β∈(VN∪VT)*。归约过程就是从输入串开始，反复用产生式右部的符号替换成产生式左部符号，直至文法开始符。
5、推导：我们称αAβ直接推出αγβ，即αAβÞαγβ，仅当A→ γ 是一个产生式，且α、β∈(VN∪VT)*。如果α1Þα2Þ…Þαn，则我们称这个序列是从α1至α2的一个推导。若存在一个从α1αn的推导，则称α1可推导出αn。推导是归约的逆过程。
六、问答题
1、给出上下文无关文法的定义。
[解答]
一个上下文无关文法G是一个四元式（VT,VN,S, P），其中：
●VT是一个非空有限集，它的每个元素称为终结符号；
●VN是一个非空有限集，它的每个元素称为非终结符号，VT∩VN=Φ；
●S是一个非终结符号，称为开始符号；
●P是一个产生式集合（有限），每个产生式的形式是P→α，其中，P∈VN，
α∈(VT∪VN)*。开始符号S至少必须在某个产生式的左部出现一次。
2、文法G[S]：
S→aSPQ|abQ
QP→PQ
bP→bb
bQ→bc
cQ→cc
（1）它是Chomsky哪一型文法？
（2）它生成的语言是什么？
[解答]
（1）由于产生式左部存在终结符号，且所有产生式左部符号的长度均小于等于产生式右部的符号长度，所以文法G[S]是Chomsky1型文法，即上下文有关文法。
（2）按产生式出现的顺序规定优先级由高到低（否则无法推出句子），我们可以得到：
SÞabQÞabc
SÞaSPQÞaabQPQÞaabPQQÞaabbQQÞaabbcQÞaabbcc
SÞaSPQÞaaSPQPQÞaaabQPQPQÞaaabPQQPQÞaaabPQPQQÞaaaPPQQQÞ
aaabbPqqqÞaaabbQQQÞaaabbbcQQÞaaabbbccQÞaaabbbccc
……
于是得到文法G[S]生成的语言L={anbncn|n≥1}
3、按指定类型，给出语言的文法。
L={aibj|j＞i≥1}的上下文无关文法。
【解答】
（1）由L={aibj|j＞i≥1}知，所求该语言对应的上下文无关文法首先应有S→aSb型产生式，以保证b的个数不少于a的个数；其次，还需有S→Sb或S→bS型的产生式，用以保证b的个数多于a的个数；也即所求上下文无关文法G[S]为：
G[S]：S→aSb|Sb|b
4、有文法G：S→aAcB|Bd
A→AaB|c
B→bScA|b
（1）试求句型aAaBcbbdcc和aAcbBdcc的句柄；
（2）写出句子acabcbbdcc的最左推导过程。
【解答】（1）分别画出对应两句型的语法树，如图2-8-2所示
句柄:AaB Bd

图2-8-2 语法树
（2）句子acabcbbdcc的最左推导如下：
SÞaAcBÞaAaBcBÞacaBcBÞacabcBÞacabcbScAÞacabcbBdcA
ÞacabcbbdcAÞacabcbbdcc
5、对于文法G[S]：
S→（L）|aS|a L→L, S|S
（1）画出句型（S,（a））的语法树。（2）写出上述句型的所有短语、直接短语、句柄和素短语。
【解答】
（1）句型（S,（a））的语法树如图2-8-3所示

（2）由图2-8-3可知：
①短语：S、a、(a)、S,(a)、(S,(a))；
②直接短语：a、S；
③句柄：S；
④素短语：素短语可由图2-8-3中相邻终结符之间的优先关系求得，即；

因此素短语为a。
6、考虑文法G[T]：
T→T*F|F
F→F↑P|P
P→（T）|i
证明T*P↑（T*F）是该文法的一个句型，并指出直接短语和句柄。
【解答】
首先构造T*P↑（T*F）的语法树如图2-8-4所示。

由图2-8-4可知，T*P↑（T*F）是文法G[T]的一个句型。
直接短语有两个，即P和T*F；句柄为P。

一、单项选择题
1、词法分析所依据的是。
a. 语义规则 b. 构词规则 c. 语法规则 d. 等价变换规则
2、词法分析器的输出结果是。
a. 单词的种别编码 b. 单词在符号表中的位置
c. 单词的种别编码和自身值 d. 单词自身值
3、正规式M1和M2等价是指。
a. M1和M2的状态数相等 b. M1和M2的有向弧条数相等
c. M1和M2所识别的语言集相等 d. M1和M2状态数和有向弧条数相等
4、状态转换图（见图3-6-1）接受的字集为。

a. 以 0开头的二进制数组成的集合 b. 以0结尾的二进制数组成的集合
c. 含奇数个0的二进制数组成的集合 d. 含偶数个0的二进制数组成的集合
5、词法分析器作为独立的阶段使整个编译程序结构更加简洁、明确，因此，。
a. 词法分析器应作为独立的一遍 b. 词法分析器作为子程序较好
c. 词法分析器分解为多个过程，由语法分析器选择使用 d. 词法分析器并不作为一个独立的阶段
解答 1、b 2、c 3、c 4、d 5、b
二、多项选择题
1、在词法分析中，能识别出。
a. 基本字 b. 四元式 c. 运算符
d. 逆波兰式 e. 常数
2、令∑={a,b}，则∑上所有以b开头，后跟若干个ab的字的全体对应的正规式为。
a. b(ab)* b. b(ab)+ c.(ba)*b
d. (ba)+b e. b(a|b)
解答 1、a、c、e 2、a、b、d
三、填空题
1、确定有限自动机DFA是的一个特例。
2、若二个正规式所表示的相同，则认为二者是等价的。
3、一个字集是正规的，当且仅当它可由所。
解答 1、NFA 2、正规集 3、DFA（NFA）所识别
四、判断题
1、一个有限状态自动机中，有且仅有一个唯一终态。（）
2、设r和s分别是正规式，则有L（r|s）=L(r)|L(s)。（）
3、自动机M和M′的状态数不同，则二者必不等价。（）
4、确定的自动机以及不确定的自动机都能正确地识别正规集。（）
5、对任意一个右线性文法G，都存在一个NFA M，满足L(G)=L(M)。（）
6、对任意一个右线性文法G，都存在一个DFA M，满足L(G)=L(M)。（）
7、对任何正规表达式e，都存在一个NFA M，满足L(G)=L(e)。（）
8、对任何正规表达式e，都存在一个DFA M，满足L(G)=L(e)。（）
解答 1 、2、3、错 4、5、6、7、8、正确
五、基本题
1、设M＝（{x,y}, {a,b}, f,x,{y}）为一非确定的有限自动机，其中f定义如下：
f（x,a）＝{x,y} f（x,b）＝{y}
f（y,a）＝φ f（y,b）＝{x,y}
试构造相应的确定有限自动机M′。
解答：对照自动机的定义M=(S,Σ,f,S0,Z)，由f的定义可知f(x,a)、f(y,b)均为多值函数，所以是一非确定有限自动机，先画出NFA M相应的状态图，如图3-6-2所示。

用子集法构造状态转换矩阵表3-6-3所示。
I Ia Ib
{x} {x,y} {y}
{y} — {x,y}
{x,y} {x,y} {x,y}
将转换矩阵中的所有子集重新命名而形成表3-6-4所示的状态转换矩阵。
表3-6-4 状态转换矩阵
a b
0 2 1
1 — 2
2 2 2
即得到M′=（{0,1,2}, {a,b}, f,0, {1,2}），其状态转换图如图3-6-5所示。

将图3-6-5的DFA M′最小化。首先，将M′的状态分成终态组{1，2}与非终态组{0}；其次，考察{1,2}。由于{1,2}a={1,2}b={2}⊂{1,2}，所以不再将其划分了，也即整个划分只有两组{0}，{1,2}：令状态1代表{1,2}，即把原来到达2的弧都导向1，并删除状态2。最后，得到如图3-6-6所示化简DFA M′。

2、对给定正规式b*（d|ad）（b|ab）+，构造其NFA M；
解答：首先用A+=AA*改造正规式得：b*(d|ad)(b|ab)(b|ab)*；其次，构造该正规式的NFA M，如图3-6-7所示。
求采纳为满意回答。
希望能解决您的问题。

❿ 语法分析器的介绍

在计算机科学和语言学中，语法分析（英：Syntactic analysis，也叫Parsing）是根据某种给定的形式文法对由单词序列（如英语单词序列）构成的输入文本进行分析并确定其语法结构的一种过程。1语法分析器（Parser）通常是作为编译器或解释器的组件出现的，它的作用是进行语法检查、并构建由输入的单词组成的数据结构（一般是语法分析树、抽象语法树等层次化的数据结构）。语法分析器通常使用一个独立的词法分析器从输入字符流中分离出一个个的“单词”，并将单词流作为其输入。实际开发中，语法分析器可以手工编写，也可以使用工具（半）自动生成。

导航:首页 > 源码编译 > 编译器分析树

编译器分析树

与编译器分析树相关的资料