双流水线算法_加拿大pc算法教程

A. 单片机科技论文

单片机是经历长期开发与应用的嵌入式系统电子设备，与计算机相比，它具有许多显着的特点。这是我为大家整理的单片机科技论文，仅供参考!

单片机科技论文篇一

单片机在现代科技中的应用与前景

[摘要]单片机是经历长期开发与应用的嵌入式系统电子设备，与计算机相比，它具有许多显着的特点。当前，单片机在现代科技应用的领域越来越广泛，并在家用电器、工业控制领域、医疗器械、仪器仪表等方面取得了良好的应用效果。在未来，单片机的更新换代仍然不会停止，它会向更加智能化，自动化，抗干扰能力强，集成度高，实用性好等方面的发展。

[关键词]单片机;现代科技;应用与前景

中图分类号：TP368.12 文献标识码：A 文章编号：1009-914X(2014)20-0054-02

随着现代科技的不断发展，嵌入式技术的开发及其应用在现代科技中的应用显得越来越重要。在嵌入式技术发展的趋势下，单片微型计算机(简称“单片机”)应运而生，并随着时代要求的发展不断地更新换代。到20世纪70年代前半期，单片机己经发展为嵌入式系统最为突出的典型代表之一，英特尔公司更将其命名为“嵌入式微控制器”。单片机的产生极大程度上推动着整个现代科技应用及其功能的发展，并在许多实际应用领域都取得了显着的成效，受到社会各界的关广泛关注，其应用技术发展的越来越成熟，具体实践应用到各个领域，开发技术也越来越智能化。本文以单片机的发展及其特点为逻辑起点，对单片机的应用性及其前景进行说明与分析。

一、单片机的发展及其特点

单片机又称“单片微型计算机”，是典型的嵌入式微控制器(Microcontroller Unit)，“它并不是落实某一个具体的逻辑功能的芯片，而是把一个计算机系统集成到一个芯片上，其功能类似于一台最小系统的微型的计算机。具体来说，单片机由运算器、控制器、存储器、输入输出设备构成”[1]。

单片机产生于20世纪70年代，经历了三个发展阶段(SCM、MCU、SOC)。初期的SCM单片机基本上都是4、8位的。其中，INTEL的8051是初期单片机最具典型意义的。此后在INTEL 8051的基础上开发并应用了MCS51系列MCU系统。由于MCS51系列MCU系统的单片机系统直到现在还在广泛使用，单片机伴随这科学技术的发展逐步开发出16位系统。但由于16位单片机的性价比不够理想，因此并未得到很广泛的应用。90年代后，随着电子产品市场的进一步繁荣发展，单片机的开发与应用得到了显着的提升。特别是INTEL i960系列与ARM系列在社会上的实践应用，32位单片机逐步地取代16位单片机的在嵌入式技术中的领先地位，并且在市场上取得了两好的效益。

与计算机相比，单片机的特点主要表现在如下几个方面：首先，单片机使用简单便捷，可实现体系布局的模块化;其次，单片机耐用时间长，有较高的耐用性;再次，单片机的处理能力强，运行速度较快;此外，单片机还具备低电压、低功耗、控制功能与环境适应能力强的特点;最后，单片机体系完备，集成了计数器、串行口、并行口、CPU、RAM与ROM等应用组件。

二、单片机在现代科技中的应用

单片机具备许多优良的特点，广泛的应在诸多领域，例如家用电器、工业控制领域、医疗器械、仪器仪表等方面，当前单片机己经得到广泛的使用，并产生了良好的应用效果。具体来说，单片机在现代科技中的应用主要体现在以下几个方面：

(一)在家用电器领域中的应用?

随着时代的发展，追求更高、更好的生活品质，对家用电器的功能需求也逐年提高，这就迫使家用电器的不断升级与改造。单片机可以满足这种需求，通过安装单片机，实现整个家用电器的智能化控制，识别相关的信息，选择合适的用户满意信息，使得家用电器在引入单片机后很好的提高了性能，更新换代的速度也得到了提升，提高了企业的竞争力，单片机应用的前景越来越广泛。例如在电视机上采用单片机技术可以使得足不出户的进行大型智能游戏的控制，选择频道方式更加便捷;微波炉可以实现食物的自动选择加热时间以及温度;洗衣机自动根据衣服材质、赃物程度，自动选择洗涤剂的用量、强度、时间等。

(二)在工业控制领域的应用

在工业领域，随着自动化的发展，尤其是在特殊环境下的，例如核工业、粉尘工业、电力高压行业等方面，对人的危害性比较大，危险性高的行业，大部分采用的是自动化操作。在此领域，单片机从此兴起，并随着应用的更加广泛在工业化控制管理，通过单片机的数据采集与过程控制手段，实现了工业化有效的智能控制管理工作，例如报警系统、流水线作业系统、自动喷漆系统等，都得到了很好的应用，随着时代的发展，其应用领域会更加广泛。

(三)在医疗器械领域的应用

现代社会，医疗条件与技术不断提升，自身的身体健康越来越受到关注然而在现有的条件下，消毒条件、住院条件，检测手段、医疗手段等都存在着诸多问题，直接影响着看病的好坏，影响着每个人的身体健康。随之而来的是现在单片机的应用在医疗器械领域，由于自身的特点与有时，可以进行多种疾病的分析，提高设备检测的准确性与可靠性，提高了诊断下药的准确性，保证了身体健康，医疗设备结构更加合理化、智能化、自动化，例如在超声波检测、呼吸系统、分析仪器等。

(四)在仪器仪表领域的应用

现在仪器仪表的生产的好坏，直接代表着一个国家的制造水平。在仪器仪表领域不断的向着智能化方向发展，单片机的作用在此领域尤其体现到其优点，具有重要的意义单片机集成度高，可靠性高、小巧，应用在仪器仪表上使得整个行业得到了很大的改变，随着单片机的集成到仪器仪表中，使得自身的设备向着数字化，智能化发展，其各方面包括处理功能测试功能，控制功能等都得到了很大的提升。例如在航空的仪器仪表中采用单片机技术，保证了仪器的可靠性、准确性，集成性高，事故率降低，提升了航天航空电子系统的智能化与自动化树皮，信息传递有效的进行。

三、单片机在现代科技中的发展前景

随着科学技术的日新月异，单片机推陈出新的速度也愈来愈快。伴随着新的CPU的加入，多位的单片机共同开发与发展是整个发展的方向。很长一段时间，单片集成电路技术在8位机发展的主要方向，随着网络通信技术的发展，16位机、32位机、64位机成为未来的发展方向。单片机的运行也会愈来愈快，防磨损能力也随之提升，具有很好的低噪声、可靠性高的优点。现在单片机为了提高抗干扰性采用EFT技术，使得单片机受外界的干扰性小，系统的时钟信号得到了很好的保证，可靠性得到了提高;布线及其驱动技术应用在单片机上降低了噪声，不至于对单片机内部的电路信号进行干扰。单片机还应用OPT技能，较之掩膜技术有着生产周期短，风险小特点，采用裸片技术或者贴面技术，实现了OPT芯片的接触不良的问题，使得得到了广泛的应用。

随着电子信息技术的发展与应用领域的逐步广泛，单片机向更加智能化，自动化，抗干扰能力强，集成度高，实用性好等方面的发展。同时，芯片的设计也愈发复杂，单片机的功能更加齐全，保有良好的耐用性、可延伸性，单片机的设计与开发、应用的前景十分广泛，领域更加宽广，智能化程度更高。

单片机在目前的发展形势下，还表现出以下趋势：首先，可靠性及应用越来越水平高和互联网连接已是一种明显的走向。其次，所集成的部件越来越多。最后，功耗越来越低和模拟电路结合越来越多。

结语

总之，在第二十一世纪，计算机技术、智能电子技术的发展，在现代社会中发挥着举足轻重的作用，嵌入式系统是电子技术的重要组成部分，其中单片机又是嵌入式系统最具典型的代表，具有强大的发展潜力。单片机技术提高了控制领域的效率以及可靠性，实现了工业的自动化，智能化，未来的工业化发展中将随着科技的不断进步而发展。

[1] 李璞，郭敏. 单片机的应用与发展[J]. 中国校外教育 2010年S1期

单片机科技论文篇二

单片机应用技术探究

摘要：近几年单片机得到了飞速的发展，单片机最明显的优势就是可以嵌入到各种仪器、设备中。目前大量的嵌入式系统均采用单片机，本文分析了单片机的形成及发展过程以及当前的技术进展，同时分析了影响单片机系统可靠性的原因，并论述提高单片机可靠性的措施。

关键词：单片机;可靠性技术;发展趋势

中图分类号： C35 文献标识码： A

引言

单片机,亦称单片微电脑或单片微型计算机。它是把中央处理器(CPU)、随机存取存储器(RAM)、只读存储器(ROM)、输入/输出端口(I/0)等主要计算机功能部件都集成在一块集成电路芯片上的微型计算机。现在可以说单片机是百花齐放的时期,世界上各大芯片制造公司都推出了自己的单片机,从8位、16位到32位,数不胜数,应有尽有,它们各具特色,互成互补,为单片机的应用提供广阔的天地。纵观单片机的发展过程,可以预示单片机的发展趋势。

一、单片机的应用场合

1.1智能仪器仪表。单片机用于各种仪器仪表，一方面提高了仪器仪表的使用功能和精度，使仪器仪表智能化，同时还简化了仪器仪表的硬件结构，从而可以方便地完成仪器仪表产品的升级换代。如各种智能电气测量仪表、智能传感器等。

1.2机电一体化产品。机电一体化产品是集机械技术、微电子技术、自动化技术和计算机技术于一体，具有智能化特征的各种机电产品。单片机在机电一体化产品的开发中可以发挥巨大的作用。典型产品如机器人、数控机床、自动包装机、点钞机、医疗设备、打印机、传真机、复印机等。

1.3实时工业控制。单片机还可以用于各种物理量的采集与控制。电流、电压、温度、液位、流量等物理参数的采集和控制均可以利用单片机方便地实现。在这类系统中，利用单片机作为系统控制器，可以根据被控对象的不同特征采用不同的智能算法，实现期望的控制指标，从而提高生产效率和产品质量。典型应用如电机转速控制、温度控制、自动生产线等。

1.4家用电器。家用电器是单片机的又一重要应用领域，前景十分广阔。如空调器、电冰箱、洗衣机、电饭煲、高档洗浴设备、高档玩具等。另外，在交通领域中，汽车、火车、飞机、航天器等均有单片机的广泛应用。如汽车自动驾驶系统、航天测控系统、黑匣子还有分布式系统的前端模块等等。

二、分析单片机可靠性限制原因及应对措施

目前，大量的嵌入式系统均采用了单片机，并且这样的应用正在更进一步扩展;但是多年以来人们一直为单片机系统的可靠性问题所困惑。在一些要求高可靠性的控制系统中，这往往成为限制其应用的主要原因。

1.单片机系统的失效分析

一个单片机系统的可靠性是其自身软硬件与其所处工作环境综合作用的结果，因此系统的可靠性也应从这两个方面去分析与设计。对于系统自身而言，能不能在保证系统各项功能实现的同时，对系统自身运行过程中出现的各种干扰信号及直接来自于系统外部的干扰信号进行有效的抑制，是决定系统可靠性的关键。有缺陷的系统往往只从逻辑上去保证系统功能的实现，而对于系统运行过程中可能出现的潜在的问题考虑欠缺，采取的措施不足，在干扰信号真正袭来的时候，系统就可能会陷入困境。

2. 提高可靠性的措施

2.1减少引起系统不可靠或影响系统可靠的外界因素：

1) EFT (Electrical Fast Transient)技术。EFT技术是一种抗干扰技术，它是指在振荡电路的正弦信号受到外界干扰时，其波形上会迭加各种毛刺信号，如果使用施密特电路对其整形，则毛刺会成为触发信号干扰正常的时钟，在交替使用施密特电路和RC滤波电路时，就可以消除这些毛否则令其作用失效，从而保证系统的时钟信号正常工作。

2) 低噪声布线技术及驱动技术。在传统的单片机中，电源及地线是在集成电路外壳的对称引脚上，一般是在左上、右下或右上、左下的两对对称点上。这样，就使电源噪声穿过整块芯片，对单片机的内部电路造成干扰。现在，很多单片机都把地和电源引脚安排在两条相邻的引脚上。这样，不仅降低了穿过整个芯片的电流，而且在印制电路板上容易布置去耦电容，从而降低系统的噪声。现在为了适应各种应用的需要，很多单片机采用"跳变沿软化技术"，从而消除大电流瞬变时产生的噪声。

3) 采用低频时钟。高频外时钟是噪声源之一，不仅能对单片机应用系统产生干扰，而且还会对外界电路产生干扰，令电磁兼容性不能满足要求。对于要求可靠性较高的系统，低频外时钟有利于降低系统的噪声。在一些单片机中采用内部锁相环技术，则在外部时钟较低时，也能产生较高的内部总线速度，从而保证了速度又降低了噪声。

三、单片机的发展趋势

1单片机技术的发展前景及趋势

由于通用型IC的仿冒现象比较严重，因此定制化IC将是未来单片机发展的主要方向。此外，尽管16位、32位单片机市场有所增加，但8位在未来三五年内仍将占主流，只是成长幅度会趋缓。从应用角度讲，盛扬看好消费类电子和家电产品，尤其是中小型家电产品，它属于比较成熟的单片机应用领域;其次是高端领域的车用产品。目前，盛扬已针对汽车周边领域推出系列产品，主要用于汽车防盗、车载电子、信息娱乐、胎压监测、里程表的面板等。

单片机拥有良好的应用前景，但厂商之间的竞争愈演愈烈。因此，对本土企业而言，要想脱颖而出，质量一定要好，同时还要注重产品的环保和可靠性，因为家电和汽车等产品对安全性的要求越来越高;其次，充分发挥本土厂商在特定应用领域的性价比优势。不过，这种性价比必须建立在性能过关、可靠度过关的基础上。

制作工艺CMO化。更小的光刻工艺提高了集成度，从而使芯片更小、成本更低、工作电压更低、功耗更低。CPU的改进。同时，采用双CPU结构，增加数据总线的宽度，提高数据处理的速度和能力;采用流水线结构，提高处理和运算速度，以适应实时控制和处理的需要。增大存储容量，片内EPROM的E2PROM化，程序的保密化，提高并行口驱动能力，以减少外围驱动芯片，增加外围?I/O?口的逻辑功能和控制的灵活性。最后，以串行方式为主的外围扩展;外围电路的内装化;和互联网连接已是一种明显的走向，可靠性及应用水平越来越高。

2微型单片化

现在常规的单片机普遍都是将中央处理器(CPU)、随机存取数据存储(RAM)、只读程序存储器(ROM)、并行和串行通信接口,中断系统、定时电路、时钟电路集成在一块单一的芯片上,增强型的单片机集成了如A/D转换器、PMW(脉宽调制电路)、WDT(看门狗)、有些单片机将LCD(液晶)驱动电路都集成在单一的芯片上,这样单片机包含的单元电路就更多,功能就越强大。甚至单片机厂商还可以根据用户的要求量身定做,制造出具有自己特色的单片机芯片。此外,现在的产品普遍要求体积小、重量轻,这就要求单片机除了功能强和功耗低外,还要求其体积要小。现在的许多单片机都具有多种封装形式,其中SMD(表面封装)越来越受欢迎,使得由单片机构成的系统正朝微型化方向发展。

3串行扩展技术

在很长一段时间里,通用型单片机通过三总线结构扩展外围器件成为单片机应用的主流结构。随着低价位OTP(One-Time Password)及各种特殊类型片内程序存储器的发展,加之处围接口不断进入片内,推动了单片机“单片”应用结构的发展。特别是I2C、SPI 等串行总线的引入,可以使单片机的引脚设计得更少,单片机系统结构更加简化及规范化。

4、结语

单片机改变了我们生活,纵观我们现在生活的各个领域,从导弹的导航装置,到飞机上各种仪表的控制,从计算机的网络通讯与数据传输,到工业自动化过程的实时控制和数据处理,以及我们生活中广泛使用的各种智能IC卡、电子宠物等,这些都离不开单片机, 单片机有着广阔的应用前景。

参考文献

[1] 张志良; 单片机原理与控制技术; 北京,机械工业出版社,2008

[2] 李广第，朱月秀，王秀山.单片机基础.北京：北京航空航天大学出版社，2002.

[3] 胡汉才.单片机原理及系统设计.北京：清华大学出版社，2002.

B. CPU的缓存有什么用为什么缓存大的运算速度快

缓存是CPU的一部分，它存在于CPU中 CPU存取数据的速度非常的快，一秒钟能够存取、处理十亿条指令和数据（术语：CPU主频1G），而内存就慢很多，快的内存能够达到几十兆就不错了，可见两者的速度差异是多么的大。存是为了解决CPU速度和内存速度的速度差异问题内存中被CPU访问最频繁的数据和指令被复制入CPU中的缓存，这样CPU就可以不经常到象“蜗牛”一样慢的内存中去取数据了，CPU只要到缓存中去取就行了，而缓存的速度要比内存快很多。缓存大小也是CPU的重要指标之一，而且缓存的结构和大小对CPU速度的影响非常大，CPU内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘。实际工作时，CPU往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升CPU内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能。但是由于CPU芯片面积和成本的因素来考虑，缓存都很小。 L1 Cache(一级缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。一般服务器CPU的L1缓存的容量通常在32—256KB。Pc235.com L2 Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。L2高速缓存容量也会影响CPU的性能，原则是越大越好，现在家庭用CPU容量最大的是512KB，而服务器和工作站上用CPU的L2高速缓存更高达256-1MB，有的高达2MB或者3MB。 L3 Cache(三级缓存)，分为两种，早期的是外置，现在的都是内置的。而它的实际作用即是，L3缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能。降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加L3缓存在性能方面仍然有显着的提升。比方具有较大L3缓存的配置利用物理内存会更有效，故它比较慢的磁盘I/O子系统可以处理更多的数据请求。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。其实最早的L3缓存被应用在AMD发布的K6-III处理器上，当时的L3缓存受限于制造工艺，并没有被集成进芯片内部，而是集成在主板上。在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。接着就是P4EE和至强MP。Intel还打算推出一款9MB L3缓存的Itanium2处理器，和以后24MB L3缓存的双核心Itanium2处理器。但基本上L3缓存对处理器的性能提高显得不是很重要，比方配备1MB L3缓存的Xeon MP处理器却仍然不是Opteron的对手，由此可见前端总线的增加，要比缓存增加带来更有效的性能提升。

C. 并行处理的并行算法的基本策略

在并行处理技术中所使用的算法主要遵循三种策略：
1．分而治之法：也就是把多个任务分解到多个处理器或多个计算机中，然后再按照一定的拓扑结构来进行求解。
2．重新排序法：分别采用静态或动态的指令词度方式。
3．显式/隐式并行性结合：显式指的是并行语言通过编译形成并行程序，隐式指的是串行语言通过编译形成并行程序，显式/隐式并行性结合的关键就在于并行编译，而并行编译涉及到语句、程序段、进程以及各级程序的并行性。
二、并行性描述定义
利用计算机语言进行并行性描述的时候主要有三种方案：
1．语言扩展方案：也就是利用各种语言的库函数来进行并行性功能的扩展。
2．编译制导法：也称为智能编译，它是隐式并行策略的体现，主要是由并行编译系统进行程序表示、控制流的分析、相关分析、优化分析和并行化划分，由相关分析得到方法库管理方案，由优化分析得到知识库管理方案，由并行化划分得到程序重构，从而形成并行程序。
3．新的语言结构法：这是显式并行策略的体现。也就是建立一种全新的并行语言的体系，而这种并行语言通过编译就能直接形成并行程序。
三、并行软件
并行软件可分成并行系统软件和并行应用软件两大类，并行系统软件主要指并行编译系统和并行操作系统，并行应用软件主要指各种软件工具和应用软件包。在软件中所牵涉到的程序的并行性主要是指程序的相关性和网络互连两方面。
1．程序的相关性：程序的相关性主要分为数据相关、控制相关和资源相关三类。
数据相关说明的是语句之间的有序关系，主要有流相关、反相关、输出相关、I/O相关和求知相关等，这种关系在程序运行前就可以通过分析程序确定下来。数据相关是一种偏序关系，程序中并不是每一对语句的成员都是相关联的。可以通过分析程序的数据相关，把程序中一些不存在相关性的指令并行地执行，以提高程序运行的速度。
控制相关指的是语句执行次序在运行前不能确定的情况。它一般是由转移指令引起的，只有在程序执行到一定的语句时才能判断出语句的相关性。控制相关常使正在开发的并行性中止，为了开发更多的并行性，必须用编译技术克服控制相关。
而资源相关则与系统进行的工作无关，而与并行事件利用整数部件、浮点部件、寄存器和存储区等共享资源时发生的冲突有关。软件的并行性主要是由程序的控制相关和数据相关性决定的。在并行性开发时往往把程序划分成许多的程序段——颗粒。颗粒的规模也称为粒度，它是衡量软件进程所含计算量的尺度，一般用细、中、粗来描述。划分的粒度越细，各子系统间的通信时延也越低，并行性就越高，但系统开销也越大。因此，我们在进行程序组合优化的时候应该选择适当的粒度，并且把通讯时延尽可能放在程序段中进行，还可以通过软硬件适配和编译优化的手段来提高程序的并行度。
2．网络互连：将计算机子系统互连在一起或构造多处理机或多计算机时可使用静态或动态拓扑结构的网络。静态网络由点一点直接相连而成，这种连接方式在程序执行过程中不会改变，常用来实现集中式系统的子系统之间或分布式系统的多个计算结点之间的固定连接。动态网络是用开关通道实现的，它可动态地改变结构，使之与用户程序中的通信要求匹配。动态网络包括总线、交叉开关和多级网络，常用于共享存储型多处理机中。在网络上的消息传递主要通过寻径来实现。常见的寻径方式有存储转发寻径和虫蚀寻径等。在存储转发网络中以长度固定的包作为信息流的基本单位，每个结点有一个包缓冲区，包从源结点经过一系列中间结点到达目的结点。存储转发网络的时延与源和目的之间的距离(段数)成正比。而在新型的计算机系统中采用虫蚀寻径，把包进一步分成一些固定长度的片，与结点相连的硬件寻径器中有片缓冲区。消息从源传送到目的结点要经过一系列寻径器。同一个包中所有的片以流水方式顺序传送，不同的包可交替地传送，但不同包的片不能交叉，以免被送到错误的目的地。虫蚀寻径的时延几乎与源和目的之间的距离无关。在寻径中产生的死锁问题可以由虚拟通道来解决。虚拟通道是两个结点间的逻辑链，它由源结点的片缓冲区、结点间的物理通道以及接收结点的片缓冲区组成。物理通道由所有的虚拟通道分时地共享。虚拟通道虽然可以避免死锁，但可能会使每个请求可用的有效通道频宽降低。因此，在确定虚拟通道数目时，需要对网络吞吐量和通信时延折衷考虑。
四、硬件技术在硬件技术方面主要从处理机、存储器和流水线三个方面来实现并行。
1．处理机：主要的处理机系列包括CISC、RISC、超标量、VL1W、超流水线、向量以及符号处理机。
传统的处理机属于复杂指令系统计算(CISC)结构。指令系统大，指令格式可变，通用寄存器个数较少，基本上使用合一的指令与数据高速缓存，时钟频率较低，CPI较高，大多数利用ROM 实现微码控制CPU，而当今的精简指令系统计算(RISC)处理机指令格式简单规范，面向寄存器堆，采用重叠寄存器窗口技术，具有多级Cache，多种流水线结构，强调编译优化技术，时钟频率快，CPI低，大多数用硬连线控制CPU。
CISC或RISC标量处理机都可以采用超标量或向量结构来改善性能。标量处理机在每个周期内只发射一条指令并要求周期只完成从流水线来的一条指令。而在超标量处理机中，使用了多指令流水线，每个周期要发射多条指令并产生多个结果。由于希望程序中有许多的指令级并行性，因此超标量处理机更要依靠优化编译器去开发并行性。
VL1W 结构是将水平微码和超标量处理这两种普遍采用的概念结合起来产生的。典型的超长指令字VL1W 机器指令字长度有数百位。在VLlW 处理机中，多个功能部件是并发工作的，所有的功能部件共享使用公用大型寄存器堆，由功能部件同时执行的各种操作是用VL1W 指令来同步的，每条指令可指定多个操作。VL1W 指令译码比超标量指令容易，但在开发不同数量的并行性时总是需要不同的指令系统。VL1W 主要是开发标量操作之间的并行性，它的成功与否很大程度取决于代码压缩的效率，其结构和任何传统的通用处理机完全不兼容。即使同一结构的不同实现也不大可能做到彼此二进制兼容。VL1W 的主要优点在于它的硬件结构和指令系统简单，在科学应用领域可以发挥良好作用，但在一般应用场合可能并不很好用。
向量处理机对数组执行向量指令，每条指令都包含一串重复的操作。它是专门设计用来完成向量运算的协处理机，通常用于多流水线超级计算机中。向量处理机可以利用循环级展开所得的并行性，它可以附属于任何标量处理机。专用的向量流水线可以在循环控制中消除某些软件开销，它的效果与优化编译器将顺序代码向量化的性能很有关系。从理论上说，向量机可以具有和超标量处理机同样的性能，因此可以说向量机的并行性与超标量机相同。
符号处理机是为AI应用而研制的，已用于定理证明、模式识别、专家系统、知识工程、文本检索、科学以及机器智能等许多应用领域。在这些应用中，数据和知识表达式、原语操作、算法特性、存储器、I/0和通信以及专用的结构特性与数值计算是不一样的，符号处理机也称为逻辑程序设计语言处理机、表处理语言处理机或符号变换器。符号处理并不和数值数据打交道，它处理的是逻辑程序、符号表、对象、剧本、黑板、产生式系统、语义网络、框架以及人工神经网络等问题。这些操作需要专门的指令系统，通常不使用浮点操作。
2．存储器：存储设备按容量和存取时间从低到高可分为寄存器、高速缓存、主存储器、磁盘设备和磁带机五个层次。较低层存储设备与较高层的相比，存取速度较快、容量较小，每字节成本较高、带宽较宽、传输单位较小。
存放在存储器层次结构中的信息满足三个重要特性：包含性、一致性和局部性。所谓包含性，指的是一个信息字的复制品可以在比它高的所有层中找到，而如果在高层中丢失了一个信息，则在比它低的所有层中此信息也将丢失。CPU 和高速缓存之间的信息传送是按字进行的，高速缓存和主存储器间用块作为数据传送的基本单位，主存和磁盘之间又是以页面为基本单位来传送信息的，而在磁盘和磁带机之间的数据传送则是按文件级处理的。所谓一致性要求的是同一个信息项与后继存储器层次上的副本是一致的。也就是说，如果在高速缓存中的一个字被修改过，那么在所有更高层上该字的副本也必须立即或最后加以修改。为了尽量减少存储器层次结构的有效存取时间，通常把频繁使用的信息放在较低层次。维护存储器层次结构一致性一般有两种策略，一种是写直达策略，也就是如果，则立即在所有高层存储器中进行同样的修改；另一种是写回策略，也就是在较低层中对信息进行修改后并不立即在高层存储器中进行相应的修改，而是等到该信息将被替换或将从低层中消失时才在所有高层存储器中进行同样的修改。甚至可以将写直达和写回策略的优点结合起来，形成写一次协议来维护存储器的一致性。
存储器的层次结构是在一种程序行为——访问的局部性基础上开发出来的。主要有时间局部性、空间局部性和顺序局部性。时间局部性指的是最近的访问项很可能在不久的将来再次被访问。它往往会引起对最近使用区域的集中访问。空间局部性表示一种趋势，指的是一个进程访问的各项其地址彼此很近。顺序局部性指的是在典型程序中，除非是转移指令，一般指令都是顺序执行的。
在多处理机系统中一般使用共享存储器。对共享存储器的组织一般采用低位交叉、高位交叉、高低位交叉三种方法。低位交叉又称并发存取，它是把相邻的地址放在相邻的存储器模块中，在访问时不容易产生冲突，并行性较好，但可靠性容错能力和扩展性均较差。高位交叉又称允许同时存取，它是把相邻地址分配到同一个存储器模块中，可靠性、容错能力和扩展性均较强，但访问时易产生冲突，带宽较窄，并行性较差。高低位交叉存取又称C—s存取，它是结合了高位交叉和低位交叉两种方法的优点，既解决了冲突问题，又能有效地提高容错能力和并行性，最适合于向量处理机结构。
3．流水线：流水线技术主要有指令流水线技术和运算流水线技术两种。
指令流水线技术主要目的是要提高计算机的运行效率和吞吐率。它主要通过设置预取指令缓冲区、设置多功能部件、进行内部数据定向、采取适当的指令调度策略来实现。指令调度的策略主要有静态和动态两种，静态词度是基于软件的，主要由编译器完成，动态词度是基于硬件的，主要是通过硬件技术进行。
运算流水线主要有单功能流水线和多功能流水线两种。其中多功能流水线又可分为静态流水线和动态流水线。静态流水线技术只用来实现确定的功能，而动态流水线可以在不同时间重新组合，实现不同的功能，它除流线连接外，还允许前馈和反馈连接，因此也称为非线性流水线。这些前馈和反馈连接使得进入流水线的相继事件的词度变得很不简单。由于这些连接，流水线不一定从最后一段输出。根据不同的数据流动模式，人们可以用同一条流水线求得不同功能的值。
并行计算机发展简述
40 年代开始的现代计算机发展历程可以分为两个明显的发展时代：串行计算时代、并行计算时代。每一个计算时代都从体系结构发展开始，接着是系统软件（特别是编译器与操作系统）、应用软件，最后随着问题求解环境的发展而达到顶峰。创建和使用并行计算机的主要原因是因为并行计算机是解决单处理器速度瓶颈的最好方法之一。
并行计算机是由一组处理单元组成的，这组处理单元通过相互之间的通信与协作，以更快的速度共同完成一项大规模的计算任务。因此，并行计算机的两个最主要的组成部分是计算节点和节点间的通信与协作机制。并行计算机体系结构的发展也主要体现在计算节点性能的提高以及节点间通信技术的改进两方面。
60 年代初期，由于晶体管以及磁芯存储器的出现，处理单元变得越来越小，存储器也更加小巧和廉价。这些技术发展的结果导致了并行计算机的出现，这一时期的并行计算机多是规模不大的共享存储多处理器系统，即所谓大型主机（Mainframe）。IBM360 是这一时期的典型代表。
到了60 年代末期，同一个处理器开始设置多个功能相同的功能单元，流水线技术也出现了。与单纯提高时钟频率相比，这些并行特性在处理器内部的应用大大提高了并行计算机系统的性能。伊利诺依大学和Burroughs 公司此时开始实施IlliacIV 计划，研制一台64 个CPU 的SIMD 主机系统，它涉及到硬件技术、体系结构、I/O 设备、操作系统、程序设计语言直至应用程序在内的众多研究课题。不过，当一台规模大大缩小了的16CPU 系统终于在1975 年面世时，整个计算机界已经发生了巨大变化。
首先是存储系统概念的革新，提出虚拟存储和缓存的思想。IBM360/85 系统与360/91是属于同一系列的两个机型，360/91 的主频高于360/85，所选用的内存速度也较快，并且采用了动态调度的指令流水线；但是，360/85 的整体性能却高于360/91，唯一的原因就是前者采用了缓存技术，而后者则没有。
其次是半导体存储器开始代替磁芯存储器。最初，半导体存储器只是在某些机器被用作缓存，而CDC7600 则率先全面采用这种体积更小、速度更快、可以直接寻址的半导体存储器，磁芯存储器从此退出了历史舞台。与此同时，集成电路也出现了，并迅速应用到了计算机中。元器件技术的这两大革命性突破，使得IlliacIV 的设计者们在底层硬件以及并行体系结构方面提出的种种改进都大为逊色。
1976 年CRAY-1 问世以后，向量计算机从此牢牢地控制着整个高性能计算机市场15 年。CRAY-1 对所使用的逻辑电路进行了精心的设计，采用了我们如今称为RISC 的精简指令集，还引入了向量寄存器，以完成向量运算。这一系列全新技术手段的使用，使CRAY-1 的主频达到了80MHz。
微处理器随着机器的字长从4 位、8 位、16 位一直增加到32 位，其性能也随之显着提高。正是因为看到了微处理器的这种潜力，卡内基- 梅隆大学开始在当时流行的DECPDP11 小型计算机的基础上研制成功一台由16 个PDP11/40 处理机通过交叉开关与16 个共享存储器模块相连接而成的共享存储多处理器系统C.mmp。
从80 年代开始，微处理器技术一直在高速前进。稍后又出现了非常适合于SMP 方式的总线协议，而伯克利加州大学则对总线协议进行了扩展，提出了Cache 一致性问题的处理方案。从此，C.mmp 开创出的共享存储多处理器之路越走越宽；现在，这种体系结构已经基本上统治了服务器和桌面工作站市场。
同一时期，基于消息传递机制的并行计算机也开始不断涌现。80 年代中期，加州理工成功地将64 个i8086/i8087 处理器通过超立方体互连结构连结起来。此后，便先后出现了Intel iPSC 系列、INMOS Transputer 系列，Intel Paragon 以及IBM SP 的前身Vulcan 等基于消息传递机制的并行计算机。
80 年代末到90 年代初，共享存储器方式的大规模并行计算机又获得了新的发展。IBM将大量早期RISC 微处理器通过蝶形互连网络连结起来。人们开始考虑如何才能在实现共享存储器缓存一致的同时，使系统具有一定的可扩展性（Scalability）。90 年代初期，斯坦福大学提出了DASH 计划，它通过维护一个保存有每一缓存块位置信息的目录结构来实现分布式共享存储器的缓存一致性。后来，IEEE 在此基础上提出了缓存一致性协议的标准。
90 年代以来，主要的几种体系结构开始走向融合。属于数据并行类型的CM-5 除大量采用商品化的微处理器以外，也允许用户层的程序传递一些简单的消息；CRAY T3D是一台NUMA 结构的共享存储型并行计算机，但是它也提供了全局同步机制、消息队列机制，并采取了一些减少消息传递延迟的技术。
随着商品化微处理器、网络设备的发展，以及MPI/PVM 等并行编程标准的发布，机群架构的并行计算机出现。IBM SP2 系列机群系统就是其中的典型代表。在这些系统中，各个节点采用的都是标准的商品化计算机，它们之间通过高速网络连接起来。
今天，越来越多的并行计算机系统采用商品化的微处理器加上商品化的互连网络构造，这种分布存储的并行计算机系统称为机群。国内几乎所有的高性能计算机厂商都生产这种具有极高性能价格比的高性能计算机，并行计算机就进入了一个新的时代，并行计算的应用达到了前所未有的广度和深度。
并行计算机随着微处理芯片的发展，已经进入了一个新时代。目前并行计算机的性能已经突破20PFLOPS，正在向百亿亿次发展。我国并行计算机的研制已经走在世界前列。2003年由联想公司生产的深腾6800 在2003 年11 月世界TOP500 排名中位列第14 名，2004 年曙光公司生产的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名，这是我国公开发布的高性能计算机在世界TOP500 中首次进入前十名，这标志着我国在并行计算机系统的研制和生产中已经赶上了国际先进水平，为提高我国的科学研究水平奠定了物质基础。2013年国际超级计算机大会最新发布的世界超级计算机500强排名中，国防科技大学研制的天河二号超级计算机系统，以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居榜首。
从TOP500 的前10 名来看，美国仍然是超级计算机的最大拥有者。按照世界TOP500 的统计数据来分析，美国在计算能力上占有近全世界的一半，在TOP500 中的所有计算机中拥有的数量超过50%。

D. 关于GPU的问题！

目录：
第一章：第二代及以后的GPU工作流程简介
第二章：DirectX8和DirectX9 GPU的传统流水线
第三章：顶点和像素操作指令
第四章：传统GPU指令的执行
第五章：统一渲染架构
第六章：G80和R600的统一渲染架构实现
第七章：G80与R600效能对比
第八章：尴尬的中端--Geforce8600简析

前面4章我将先简要介绍下DirectX8/9显卡的核心----图形处理单元GPU的工作流程和指令处理情况
从第5章开始讨论统一渲染架构、新一代DirectX10 GPU的特性，G80/Geforce8800与R600/RadeonHD2900XT的架构具体实现及其区别。最后将会对中端最受关注的Geforce8600进行相应的简单分析。

第一章：第二代及以后的GPU工作流程简介

简单（而不一定绝对科学）的说：GPU主要完成对3D图形的处理--图形的生成渲染。

GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）
顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Vertex Shader（定点着色器）完成。
光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。
纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texture mapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texture mapping unit）即是用来完成此项工作。
像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）完成。
最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。

总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。

第二章：DirectX8和DirectX9 GPU的传统流水线

前面的工作流程其实已经说明了问题。本章来总结一下，承前启后。
传统的GPU功能部件我们不妨将其分为顶点单元和像素流水线两部分。
顶点单元由数个硬件实现的Vertex Shader组成。
传统的像素流水线由几组PSU(Pixel Shader Unit)+TMU+ROP组成。
于是，传统的GPU由顶点单元生成多边形，并由像素流水线负责像素渲染和输出。

对于像素流水线需要做的说明是：虽然传统的流水线被认为=1PSU+1TMU+1ROP，但这个比例不是恒定的，例如在RadeonX1000（不包括X1800）系列中被广为称道的3:1黄金架构，PSU:TMU:ROP的数量为3：1：1。一块典型的X1900显卡具有48个PSU，16个TMU和16个ROP。之所以采用这种设计方法，主要考虑到在当今的游戏中，像素指令数要远远大于纹理指令的数量。ATI凭借这个优秀的架构，成功击败了Geforce7，在DX9后期取得了3D效能上的领先。

总结：传统的GPU由顶点单元生成多边形，像素流水线渲染像素并输出，一条像素流水线包含PSU，TMU，和ROP(有的资料中不包含ROP)，比例通常为1:1:1，但不固定。

第三章：顶点和像素操作指令

GPU通过执行相应的指令来完成对顶点和像素的操作。
熟悉OpenGL或Direct3D编程的人应该知道，像素通常使用RGB三原色和alpha值共4个通道（属性）来描述。而对于顶点，也通常使用XYZ和W 4个通道（属性）来描述。因而，通常执行一条顶点和像素指令需要完成4次计算，我们这里成这种指令为4D矢量指令（4维）。当然，并不是所有的指令都是4D指令，在实际处理中，还会出现大量的1D标量指令以及2D，3D指令。

总结：由于定点和像素通常用4元组表示属性，因而顶点和像素操作通常是4D矢量操作，但也存在标量操作。

第四章：传统GPU指令的执行

传统的GPU基于SIMD的架构。SIMD即Single Instruction Multiple Data，单指令多数据。
其实这很好理解，传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4D ALU。
需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D 3D指令时效率则会高不少，例如如下指令：
ADD R0.xyz , R0,R1 //此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0
ADD R3.x , R2,R3 //此指令是将R2 R3矢量的w值相加结果赋值给R3
对于传统的4D ALU，显然需要两个周期才能完成，第一个周期ALU利用率75% ，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。
但当然，即使采用co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2D ALU一周期完成，而且同样，两条2D指令也不能被1D+3D ALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。

总结：传统的GPU中定点和像素处理分别由VS和PS来完成，每个VS PS单元中通常有一个4D ALU，可以在一个周期完成4D矢量操作，但这种ALU对1D 2D 3D操作效率低下，为了弥补，DX9显卡中ALU常被设置为1D+3D 2D+2D等形式。

第五章：统一渲染架构

相对于DirectX 9来说，最新的DirectX 10最大的改进在于提出了统一渲染架构，即Unified Shader。
传统的显卡GPU一直采用分离式架构，顶点处理和像素处理分别由Vertex Shader和Pixel Shader来完成，于是，当GPU核心设计完成时，PS和VS的数量便确定下来了。但是不同的游戏对于两者处理量需求是不同的，这种固定比例的PS VS设计显然不够灵活，为了解决这个问题，DirectX10规范中提出了了统一渲染架构。
不论是顶点数据还是像素数据，他们在计算上都有很多共同点，例如通常情况下，他们都是4D矢量，而且在ALU中的计算都是没有分别的浮点运算。这些为统一渲染的实现提供了可能。
在统一渲染架构中，PS单元和VS单元都被通用的US单元所取代，nVidia的实现中称其为streaming processer，即流处理器，这种US单元既可以处理顶点数据，又可以处理像素数据，因而GPU可以根据实际处理需求进行灵活的分配，这样便有效避免了传统分离式架构中VS和PS工作量不均的情况。

总结：统一渲染架构使用US（通常为SP）单元取代了传统的固定数目的VS和PS单元，US既可以完成顶点操作，又可以完成像素操作，因而可以根据游戏需要灵活分配，从而提高了资源利用率。

第六章：G80和R600的统一渲染架构实现

以下我们着重讨论G80和R600的统一着色单元而不考虑纹理单元，ROP等因素。
G80 GPU中安排了16组共128个统一标量着色器，被叫做stream processors，后面我们将其简称为SP。每个SP都包含有一个全功能的1D ALU。该ALU可以在一周期内完成乘加操作（MADD）。
也许有人已经注意到了，在前面传统GPU中VS和PS的ALU都是4D的，但在这里，每个SP中的ALU都是1D标量ALU。没错，这就是很多资料中提及的MIMD（多指令多数据）架构，G80走的是彻底的标量化路线，将ALU拆分为了最基本的1D 标量ALU，并实现了128个1D标量SP，于是，传统GPU中一个周期完成的4D矢量操作，在这种标量SP中需4个周期才能完成，或者说，1个4D操作需要4个SP并行处理完成。
这种实现的最大好处是灵活，不论是1D,2D,3D,4D指令，G80得便宜其全部将其拆成1D指令来处理。指令其实与矢量运算拆分一样。
例如一个4D矢量指令 ADD R0.xyzw , R0,R1 R0与R1矢量相加,结果赋R0
G80的编译器会将其拆分为4个1D标量运算指令并将其分派给4个SP：
ADD R0.x , R0,R1
ADD R0.y , R0,R1
ADD R0.z , R0,R1
ADD R0.w, R0,R1
综上：G80的架构可以用128X1D来描述。

R600的实现方式则与G80有很大的不同，它仍然采用SIMD架构。
在R600的核心里，共设计了4组共64个流处理器，但每个处理器中拥有1个5D ALU，其实更加准确地说，应该是5个1D ALU。因为每个流处理器中的ALU可以任意以1+1+1+1+1或1+4或2+3等方式搭配（以往的GPU往往只能是1D+3D或2D+2D）。ATI将这些ALU称作streaming processing unit，因而，ATI宣称R600拥有320个SPU。
我们考虑R600的每个流处理器，它每个周期只能执行一条指令，但是流处理器中却拥有5个1D ALU。ATI为了提高ALU利用率，采用了VLIW体系(Very Large Instruction Word)设计。将多个短指令合并成为一组长的指令交给流处理器去执行。例如，R600可以5条1D指令合并为一组5DVLIW指令。
对于下述指令：
ADD R0.xyz , R0,R1 //3D
ADD R4.x , R4,R5 //1D
ADD R2.x , R2,R3 //1D
R600也可以将其集成为一条VLIW指令在一个周期完成。
综上：R600的架构可以用64X5D的方式来描述。

总结：G80将操作彻底标量化，内置128个1D标量SP，每个SP中有一个1D ALU，每周期处理一个1D操作，对于4D矢量操作，则将其拆分为4个1D标量操作。
R600仍采用SIMD架构，拥有64个SP，每个SP中有5个1D ALU，因而通常声称R600有320个PSU，
每个SP只能处理一条指令，ATI采用VLIW体系将短指令集成为长的VLIW指令来提高资源利用率，例如5条1D标量指令可以被集成为一条VLIW指令送入SP中在一个周期完成。

第七章：G80与R600效能对比

从前一章的讨论可以看出，R600的ALU规模64X5D=320明显比G80的128X1D=128要大，但是为何在实际的测试中，基于R600的RadeonHD2900XT并没有取得对G80/Geforce8800GTX的性能优势？本章将试图从两者流处理器设计差别上来寻找答案，对于纹理单元，ROP，显存带宽则不做重点讨论。事实上，R600的显存带宽也要大于G80。
我们将从频率和执行效能两个方面来说明问题：
1、频率：G80只拥有128个1D流处理器，在规模上处于绝对劣势，于是nVidia采用了shader频率与核心频率异步的方式来提高性能。Geforce8800GTX虽然核心频率只有575MHZ，但shader频率却高达1375MHZ，即SP工作频率为核心频率的两倍以上，而R600则相对保守地采用了shader和核心同步的方式，在RadeonHD2900XT中，两者均为740MHZ。这样一来，G80的shader频率几乎是R600的两倍，于是就相当于同频率下G80的SP数加倍达到256个，与R600的320个接近了很多。在处理乘加（MADD）指令的时候，740MHZ的R600的理论峰值浮点运算速度为：740MHZ*64*5*2=473.6GFLOPS 而shader频率为1350MHZ的G80的浮点运算速度为：1350MHZ*128*1*2=345.6GFLOPS，两者的差距并不像SP规模差距那么大。
2、执行效能：G80虽说shader频率很高，但由于数量差距悬殊，即使异步也无法补回理论运算速率的差距。于是，要寻找答案，还要从两者流处理器的具体设计着手。
在G80中，每个矢量操作都会被拆分为1D标量操作来分配给不同的SP来处理，如果不考虑指令并行性等问题，G80在任何时刻，所有SP都是充分利用的。而R600则没这么幸运，因为每个流处理器只能同时处理一条指令，因而R600要将短指令合并为能充分利用SP内5DALU运算资源的VLIW指令，但是这种合并并不是总能成功。目前没有资料表明R600可以将指令拆开重组，也就是说，R600不能每时每刻都找到合适的指令拼接为5D指令来满载他的5D SP，这样的话我们假设处理纯4D指令的情况，不能拆分重组的话，R600每个SP只能处理一条4D指令，利用率80%，而对于G80，将指令拆开成1D操作，无论何时都能100%利用。而且，R600的结构对编译器的要求很高，编译器必须尽可能寻找Shader指令中的并行性，并将其拼接为合适的长指令，而G80则只需简单拆分即可。
另外还需要说明的一点是，R600中每个SP的5个1D ALU并不是全功能的，据相关资料，每组5个ALU中，只有一个能执行函数运算，浮点运算和Multipy运算，但不能进行ADD运算，其余的4各职能执行MADD运算。而G80的每个1D ALU是全功能的，这一点也在一定程度上影响了R600的效能。

总结：虽然R600的ALU规模远大于G80，但G80的SP运行频率几乎是R600的两倍，而且G80的体系架构采用完全标量化的计算，资源利用率更高，执行效能也更高，因而总体性能不落后于R600。

第八章：尴尬的中端--Geforce8600简析

在新一代中端显卡中，最早发布也是最受关注的莫过于nVidia的G84---Geforce8600系列。
但是相比其高高在上的价格，它的性能表现实在不尽如人意，很多测试中均落后于价格低于它的老一代高端显卡Geforce7900GS。本章将利用前面讨论的结论对G84核心的SP处理能力作简要地分析。
G84是G80核心的高度精简版本，SP数量从G80的128个锐减为32个，显存位宽也降为1/3--128bit。
抛开显存位宽和TMU ROP，我们着重看SP，G84的SP频率与核心频率也不相同，例如8600GT，核心频率只有540MHZ，shader频率却高达1242MHZ，即核心频率的两倍多，我们粗略按两倍记，则G84核心相当于核心shader同步的64(个1D标量) SP，而传统的VS和PS中ALU是4D的，于是可以说G84的计算能力相当于传统VS和PS总数为64/4=16的显卡，粗略比较，它与Geforce7600（PS+VS=17）的计算能力相近。但当然，事实这样比较是有问题的，因为在G7X中，每个PS中有两个4D ALU，因而7600的运算能力高于传统PS+VS=17的显卡。下面的计算就说明了问题：（MADD操作）
对于7600GT ，VS为4D+1D PS为4D+4D 核心频率560MHZ 理论峰值浮点运算速度：
560MHZ*（12*（4+4）+5*（1+4））*2=135.52GFLOPS
而对于8600GT：1242MHZ*32*1*2=79.4GFLOPS
由此可见，8600GT的峰值运算速度甚至远低于上代的7600GT，更不用跟7900GS相比了。但是，实际情况下，迫于传统架构所限，G7X满载的情况基本不可能出现，G7X的实际运算速率要远低于理论值，而对于G8X架构，执行效率则高很多，实际运算速率会更加接近理论极限。而且支持SM4.0的G8X寄存器数目也要远多于G7X，众多效率优势，使得Geforce8600GT仅凭借少量的SP就足以击败上代中端7600GT。
但是作为DX10显卡，仅仅击败7600GT显然不是最终目标，仅32SP的它在计算量要求空前之高的DX10游戏中表现极差，根本不能满足玩家要求。

总结：8600GT性能上取代7600GT的目标凭借着高效的统一渲染架构总算勉强完成，但过少的SP数量使得其显然难以击败上代高端，更不用说流畅运行DX10游戏了，而高高在上的价位更使其处境不利，归根到底，nVidia对G84 SP数量的吝啬以及过高的价格定位造就了Geforce8600的尴尬，因此，就目前的情况来看，选用8600系列显然不如Geforce7900和RadeonX1950GT来的划算。

E. 加拿大pc算法教程

1.三级流水线：其实对于PC = PC +8这个问题很简单，这两个PC其实代表着不同的意义，第一个PC是对于CPU而言，而第二个PC而言是我们通过编译器看到的PC（PC指向程序正在运行的那一条指令），但是对于CPU的PC是永远指向取指那个步，故PC = PC +8。

2.五级流水线; ARM9流水线包括取指（fetch）、译码（decode）、执行（excute）、缓冲/数据（buffer/data）、回写（write-back）寄存器堆。ARM9流水线在译码阶段已经开始读取操作数寄存器，因此译码阶段的PC值和取指阶段的PC值关系为：PC（decode）=PC（fetch）+4。因此执行阶段的PC值和译码阶段的PC值关系为：PC（excute）=PC（decode）+4。

3.对于软中断函数的返回时的PC：如下

ARM Thumb

SWI PC-8 PC-4

xxx 》 PC -4 PC-2 （异常返回将执行这条指令）

yyy PC PC

因此返回指令为： MOV PC , LR

原因：异常是由指令本身引起的，因此内核在计算LR时的PC值并没有被更新。对于ARM状态，因为SWI指令表示将跳到异常处理函数，此时SWI这条指令的PC = PC -8，当进入异常处理函数之前，硬件会自动把PC-4保存到LR寄存器中，所以异常处理函数结束后直接MOV PC, LR就行，就会跳到xxx这一条指令去执行。对于Thumb状态同理。

4.对于IRQ和FIQ中断函数返回时的PC：

ARM Thumb

xxx PC-12 PC-6 （程序在运行这条代码时就产生了中断信号）

yyy 》 PC-8 PC-4 （异常返回将执行这条指令）

zzz PC-4 PC-2

www PC PC

返回指令为： SUBS PC, LR, #4

原因：异常在当前指令执行完成后才会被响应，因此内核在计算LR时的PC值已被更新。对于ARM状态，程序在执行xxx这条指令时，中断信号产生，但是由于中断必须在这一条指令执行完之后才会被响应，执行完后，则此时对于CPU的PC已经指向了www这条指令的取指，在中断函数函数时应该执行yyy这条指令，虽然硬件会把PC-4的值赋值给LR寄存器，但是这是指向zzz这条指令的，所以返回时应该SUBS PC, LR, #4。对于Thumb状态同理。

F. GPU和CPU之间是如何协调数据处理的

因为设计的目标不同，当今的CPU和GPU功能上有本质的不同。作为通用处理器的CPU，顾名思义，它是设计用来处理通用任务的处理、加工、运算以及系统核心控制等等的。CPU中包含的最基本部件有算术逻辑单元和控制单元，CPU的微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类的等等百花八门的工作而优化的，在处理日常繁复的任务中应付自如。

计算机的“灵魂”——操作系统，以及几乎100%的系统软件都主要仰仗CPU来顺利运行。CPU面对的算术、逻辑运算以及控制处理是非常繁琐和复杂的，面对处理的数据和信息量不仅数量多而是种类多。CPU运算和控制多面手的这种设计，让它在计算机中得心应手，位置不可动摇。

GPU设计的宗旨是实现图形加速，现在最主要的是实现3D 图形加速，因此它的设计基本上是为3D图形加速的相关运算来优化的，如z-buffering 消隐，纹理映射(texture mapping)，图形的坐标位置变换与光照计算(transforming & lighting)等等。这类计算的对象都是针对大量平行数据的，运算的数据量大，但是运算的类型却并不复杂，大多类似和雷同，计算性强但是逻辑性不强，如矩阵运算就是图形运算的典型特性。

如今的游戏，单单从图象的生成来说大概需要下面四个步骤：

1、Homogeneous coordinates（齐次坐标）
2、Shading models（阴影建模）
3、Z-Buffering（Z-缓冲）
4、Texture-Mapping（材质贴图）
在这些步骤中，显示部分（GPU）只负责完成第三、四步，而前两个步骤主要是依靠 CPU 来完成。而且，这还仅仅只是3D图象的生成，还没有包括游戏中复杂的AI运算。场景切换运算等等……无疑，这些元素还需要CPU去完成，这就是为什么在运行《魔兽世界》的时候，当场景切换时再强劲的显卡都会出现停顿的现象。
对于需要CPU进行大量AI运算的游戏来说，在固定的显示分辨率下，CPU的架构越强、主频越高的确有一定的优势。着名的FPS第一人称设计游戏——CSS，就是一个很好的例子。当你开启了30个左右的机器人，在大混战的时候就很容易体现出高端CPU与入门级CPU之间的区别了。
打造一套完整的游戏 PC 系统，CPU和显卡的搭配应该相得益彰，高成低就或低成高就都是不平衡的组合方式。

第一代 GPU 首先，CPU将数据传递给GPU进行处理，数据先进入T&L单元中的Transform Engine，在这里，数据将以顶点的形式接受视野范围的判断，当处理单元判断某部分顶点处于观察者的视线范围以外时，Transform Engine将把这部分顶点“剪除”以使其不会干扰后续的流水线操作, 具个简单的例子：当你在某FPS游戏中突然打开狙击枪的狙击镜，视野变成了一个圆形的空洞，而其他部分则为黑色，这时 Transform Engine将去除这个圆形视野范围以外的所有顶点，不过，这里进行的只是视野范围的判断，Transform Engine去除在你的视线范围内但是被其它东西挡住了的物体，另外，每一个三角形可能被旋转，放大/缩小，上升，下降，左偏，右移等。这就是多边形转换转换。 Transform Engine根据你的视角，改变了由程序提供的组成3D物体的顶点的坐标。经过Lighting Engine处理后的图象经过判断处理后的数据将流入T&L单元中的Lighting Engine，根据光源的类型，距离，角度，数目，应用方式等不同参数，每一个多边形都会有不同的光影表现和光影关系，因而需要不同的光线函数予以表征，在Lighting Engine中，处理单元将根据软件提出的光源分布情况为每个顶点计算出它所具有的光线矢量，以便后续进行的光线纹理贴图，着色等操作
经过Lighting Engine处理的画面
其实，经由T&L单元处理过的数据还只是抽象的数据，并不是具体的图形，上面两副图仅仅是方便读者进行想象的示意图。
接下来数据将流入Setup Engine，在这里，运算单元将进行三角形的设置工作，这是整个绘图过程中最重要的一个步骤，Setup Engine甚至直接影响着一块GPU的执行效能。三角形的设置过程是由一个一个的多边形组成的，或者是用更好的三角形代替原来的三角形。在三维图像中可能会有些三角形被它前面的三角形挡住，但是在这个阶段3D芯片还不知道哪些三角形会被挡住。所以三角形建立单元接收到的是一个个由三个顶点组成的完整三角形。三角形的每个角（或顶点）都有对应的X轴、Y轴和Z轴坐标值，这些坐标值确定了它们在3D景物中的位置。同时，三角形的设置也确定了像素填充的范围
经过Setup Engine处理的画面
最终着色完毕的画面
在三角形设置完毕后，T&L单元的全部运算就完成了。接下来数据将进入NV15独有的NSR像素处理单元进行一定的像素处理，接着流入像素流水线进行后续的纹理像素填充等操作，这部分操作在DriectX7.0中的变化并不明显，基本的渲染填充过程与过去的显卡几无二异
T&L虽然再一定程度上缓解了CPU运算能力的不济所带来的瓶颈，使得系统在图形方面的资源得到了再分配和增强，但同时，T&L也将新的矛盾转到了GPU上
T&L是一组相对固定的简单的图形函数，所实现的特效受到了函数本身语句的限制，虽然这种固定的指令集设计可以带来比较高的执行效率，但这种设置使得DX7下所能实现的特效受到了指令集的约束，许多逼真的特效无法实现，程序员的思想也被限定在一个相对狭窄的范围内。
2、我要看到你飘逸的秀发和迷人的微笑—可编程Shader以及第二代GPU
DriectX8.0在传统T&L的基础上加入了两个新的概念—可编程的Vertex Shader和Piexl Shader，同样的，第二代 GPU的标志就是硬件级别的可编程Shader运算，代表产品为NV2X（Geforce3/4Ti），R2XX（Radeon8500）等
可编程Shader的复杂程度远非T&L可比，为了方便大家理解第二代GPU的特点，我们先来认识一下什么是可编程Shader，以及可编程Shader运算单元
可编程Vertex Shader及顶点处理器：
可编程Vertex Shader让程序员能够对特定物体，甚至整个画面的每一个顶点，指定特别的运算程序，却不需要CPU介入。每一个顶点都携带相当多的信息，比如坐标，重量，法线，颜色，纹理坐标，雾和点大小数据。顶点处理器能够以简短的程序来改变上述这些信息。这些小程序直接由顶点着色引擎本身执行，不必劳驾CPU。典型的T&L引擎将程序员限制在3D运算的光影转换之前，在有了顶点处理器的支持之后，游戏设计师对游戏场景里的3D物体能够为所欲为的操纵变化，而且不需要用到中央处理器。
这导致了一场革新，程序可以改变顶点的坐标，这样基本上改变物体的形状，以达到更接近真实的移动、移动残影、混色、内插（在两种外型间转换），以及变形，比如改变角色脸部的骨骼和皮肤一个产生一个适时的微笑。也可改变顶点上的颜色数据和纹理坐标，物体表面的颜色达到设计师所想要的色彩效果、投影、凹凸贴图设置（如Blinn Bump mapping）或者其它投射的纹理。光源也可以为程序员随心所欲的调整，不再像过去那样需要对光源的效果进行笨拙的光线纹理贴图，而这些在以前是不可想象的。这一切都归功于可编程Vertex Shader和顶点处理器的出现
Blinn Bump mapping
可编程Piexl Shader以及像素处理器
在NV15中，nVidia曾经尝试加入一个叫NSR的像素处理单元，它可以在数据进入像素流水线之前对每个像素进行一系列运算操作，虽然同为每像素操作，但NSR与Piexl Shader可不能同日而语， NSR对于像素的运算只有7种，同T&L一样，它依然是固定模式的，程序员依然要依照规定好的条条框框写出程序，而Piexl Shader则不同，我们可以用许多不同方式去编程，以实现不同的特效，下面就是一般的像素处理器所具备的特性：
· 阴影贴图
· 快速纹理载入
· 影像乘法，对称核心
· 支持4096x4096或512x512x512 纹理
· 立方体贴图每边可4096x4096x32-位
· 支持YUYV的纹理（自动转换成RGB三原色）
· 支持全景贴图
可以指向任何一个图像，如背景缓冲区（back buffer），而可直接当作纹理使用
· 边缘色彩及边缘纹理
· 硬件同步化读/写
对同一张纹理的读及写允许全流水线操作。
可以对背景缓冲区着色，然后马上能当作纹理使用
· Pass through colors
· 支持DX6规格的环境凹凸/亮度贴图（就是环境凹凸贴图）
· 简单的纹理，S,T 在alpha/红(AB)及蓝/绿 (BG)
· 等向的双方向性反射分布功能光源
· 内积产生色彩贴图或Z坐标
· 真实反射凹凸贴图
这看起来似乎有点抽象，简单的说，可编程Piexl Shader实现了一个非常重要的特效—真实的毛发
古老街道上昏暗灯光中的狼人
在3D渲染中，渲染真实的毛发一直是一件非常困难的事情，大量的多边形给多边形生成带来了严峻的考验，而每一根毛发之间复杂多变的即时光影关系更不是几个简单固定的指令所能实现的。Piexl Shader的可编程性和运算能力很好的解决了这个问题
好啦，现在让我们来看看第二代GPU是如何完整处理一个画面的吧
首先，来自CPU的各种物理参数进入GPU，Vertex Shader将对顶点数据进行基本的判断，如果没有需要处理的Vertex效果，则顶点数据直接进入Transform&Lighting Unit进行传统的T&L操作以节约时间提高效率，如果需要处理各种Vertex效果，则 Vertex Shader将先对各种Vertex Programs的指令进行运算，一般的Vertex Programs中往往包含了过去转换，剪切，光照运算等所需要实现的效果，故经由Vertex Shader处理的效果一般不需要再进行Transform&Lighting操作；另外，当遇到涉及到曲面镶嵌（把曲面，比如弓形转换成为多边形或者三角形）的场合时，CPU可以直接将数据交给Vertex Shader进行处理
另外，在DX8.0的Transform过程中，Vertex Shader可以完成Z值的剔除，也就是Back Face Culling—阴面隐去，这就意味着除了视野以外的顶点外，视野内被前面顶点遮住的顶点也会被一并剪除，这大大减轻了需要进行操作的顶点数目
接下来，经由Vertex Shader处理完成的各种数据将流入Setup Engine，在这里一如既往的进行三角形的设置工作，到这里为止，Vertex Shader的工作就完成了
过去，设置好的三角形本来应该带着各自所有的参数进入像素流水线内进行纹理填充和渲染，但现在则不同，在填充之前我们还需要进行Piexl Shader的操作
其实Piexl Shader并非独立存在的，它位于纹理填充单元之后，数据流入像素流水线后先进入纹理填充单元进行纹理填充，然后便是 Piexl Shader单元，经由Piexl Shader单元进行各种处理运算之后再进入像素填充单元进行具体的着色，再经由雾化等操作后，一个完整的画面就算完成了
值得注意的是，第二代GPU中普遍引入了独立的显示数据管理机制，他们位于Vertex Shader，Setup Engine以及像素流水线之间，负责数据的更有效率的传输、组合，各种无效值的剔除，数据的压缩以及寄存器的管理等工作，这个单元的出现对整个GPU的工作效率的保证其到了至管重要的作用。
HyperZ系列：HyperZ技术本身就是一种类似nVIDIA的“Z-封闭甄别”的技术，但是比nVIDIA还更进一步。它的主要功能简单说来就是分析在Z轴上的场景，被遮挡的就会被忽略掉，只渲染我们能看到的部分场景；然后对渲染过的Z轴场景进行压缩处理，数据的压缩可减少他所占用的空间，从而在存取Z-Buffer数据的时候可以保留更多的显存带宽。而且这是一种画面质量没有损害的压缩算法，并不影响画面质量。最后一步就是把经过渲染的场景中的Z -Buffer信息立刻清除掉，这样就更加大了显存带宽的利用率。
LMA（光速显存架构）系列：光速显存架构采用的第一个技术是“显存交错控制”技术， LMA中的显存控制器划分成了4个独立的显存控制单元，每个单元最大可以进行32bit图形相关数据的存取工作，并且这4个单元之间以及它们和图形处理单元之间都保持密切的通讯联系，并随时协调平衡各个子单元之间的数据流量，因此整体来看LMA的显存控制单元还是可以进行128bit数据的存储，但是保证了显存带宽的充分利用。光速显存架构采用的第二个技术是“无损Z压缩算法”。传统的图形芯片对于每个待渲染的图形象素都要进行Z轴数据的读写工作，因此存储这些数据的Z缓存一向是消耗显存带宽的大户。LMA中集成了硬件 “无损Z压缩”单元，采用“无损Z压缩算法”对Z－缓存数据进行4:1的完全无损压缩。光速显存架构采用的第三个技术是“Z-封闭甄别”。排除了图象中被遮盖住而不可见的部分，这样GPU就不做隐面模型构建(节省处理器的多边形运算资源),并且渲染管线也不对隐面进行渲染(无需从帧缓存中读写隐面资料数据,节省渲染管线的象素和纹理生成资源并完全消灭了隐面资料对显存带宽的占用)。最后，LMA还包括了4组高速Cache，对数据传输进行缓冲。
3、梦中的镜花水月—可编程Shader2.0以及第三代GPU
当你第一次看到3Dmark03中的MotherNature时，你有没有感觉到震撼？
更加宽泛的色彩范围能够使得图形的逼真度上升，这就是Shader2.0的由来，Shader2.0的核心实际上就是以扩大指令数目以及FLOAT数据形式的应用来提高色彩表达的精确度，而第三代GPU的Shader单元也由此而具备了高精度FLOAT色彩数据的运算能力。从一般角度来讲，第三代GPU同第二代GPU相比在基本的操作控制形式等方面并没有本质的区别，但是由于Shader2.0更大的指令长度和指令个数，以及通用程序+子程序调用的程序形式等使得第三代GPU在处理高精度的庞大指令时效率上有了明显的提升，同时也使得第三代GPU的可编程性跃上了一个新的台阶
让我们来看看第三代GPU到底有哪些改进吧
Vexter Shader部分
第三代GPU的顶点处理器部分除了一般的操作功能外还具备流程控制能力，包括循环，跳跃以及子程序调用等，这些控制指令以及更多向量（或标量）寄存器的应用使得顶点处理器能够以更高的效率执行Vertex Programs，提高了Vertex的处理速度。同时，加大的指令长度和指令数量使得顶点处理器的功能得到了进一步的强化。另外，在第三代GPU中，传统的T&L数据将完全交由顶点处理器来执行，Transform& Lighting Unit将彻底被顶点处理器“吞并”，这也是第三代GPU的一个重要特点
Piexl Shader部分
第二代GPU的Piexl Shader只能实现INT数据的运算，这势必会带来最终运算结果的不精确，而数据的不精确导致了颜色表现的不准确，干扰了最终画面的质量以及效果的表现，第三代GPU的重点改进就是运算单元和寄存器所支持的运算格式，现在Piexl Shader可以进行更高精度的FLOAT 运算和输出，从而使得图形的色彩显示更加精确
暴光正确的图象
数据精度不当而无法实现的特种暴光
另外，第三代GPU的像素处理器每周期所能处理的材质以及指令也分别增加了数倍，这些新特性使得第三代GPU可以处理各种复杂程度的效果，营造一个更为真实的3D画面，比如更加真实的水面效果
INT Piexl Shader所表现的水面效果
FLOAT Piexl Shader所表现的水面效果
传统的INT无法表现宽泛的波浪效果，程序员害怕数据精度范围狭窄引起的上溢或者下溢的发生而不得不在一个很小的物理参数范围内控制涟漪水面所需的波长、波浪的大小、移动速度以及反射和折射效果等，现在，由于数据精度的提升，像素处理器完全可以处理一个非常宽泛的数据精度范围，避免数据的溢出，这就使得更加真实的水面效果得以被表现。第三代GPU的代表是NV3X系列，R3XX系列等，其中R3XX系列的基本处理方式和顺序与第二代GPU在本质上基本相同，仅仅是Vertex Shader和Piexl Shader的具体操作细节和运算精度上有些许不同，而NV3X虽然在基本原理上也与之大略相同，但从流水线的角度来看则与完全不同，应该算是个“异类”。产生过程，只分析一下NV3X
以NV35为例：
首先，他具有8个纹理帖图单元，但8个纹理贴图单元并不在固定分布于每一条Piexl流水线，而是集簇在一起，根据情况来搭配，可以是4*2、8*1。
其次，他具有12条Shader流水线，但没有全盘采用浮点渲染流水线，而只是把12条Shader流水线中的8条做成具备浮点处理能力;不过全部12条Shader流水线都具备Fixed-Point Shader的执行能力。
另外，NV3X将流水线后部的各种渲染单元，如雾化，Alpha混合等大幅削减，使得流水线在一定程度上公用这些单元
NV30的构架组成形式基本上与之相当，只是数目上略有不同
由于这个构架并不是传统意义上的4*2或者8*1的固定构架，我们不能象过去那样说NV35“每个流水线具有2个纹理帖图单元”或者“每条管线具有3个Shader流水线”……我们只能说“NV35单位周期可以完成8次左右的纹理贴图或者12次Shader操作”
另外，由于NV3X对于Fixed-Point Shader的支持精度是FP16和FP32，同时NV3X的Shader流水线的单位Fixed- Point Shader处理精度是16位，所以当遇到32位Fixed-Point Shader数据时，能进行Fixed-Point Shader 数据处理的8条Shader流水线也会根据情况进行搭配来运算32位的Fixed-Point Shader数据
Pixel Programs往往是由多条指令构成的，不同的指令需要不同的执行时间来完成，每个像素必须在应用在它“身上”的Pixel Shader 操作完成后才能由像素流水线写入到帧缓存里。故此，对于应用了Piexl Shader的像素实际上是需要多个以上的周期才能写入到帧缓存里，如果采用8 条完整的渲染流水线的话，流水线后面的雾化、色彩混合等单元很多时候都会处在等待阶段，这部分单元需要占用的晶体管数量不在少数，如果这样浪费就怪可惜的，砍掉后其中的雾化等单元后，对整体的性能虽然有一些影响，但是却可以把节省下来的晶体管用于加强Pixel Shader的功能和性能上来，同时可以保证比较高的多重纹理效率，利大于弊。
简单的，这个有点诡异的体系节省晶体管的同时能确保相对较好的Pixel Shader效能，同时还有极高的多重贴图效能
nVidia本指望4条Pixel管线+ 12条Shader流水线的设计能够在现在以及未来较长的一段时间的游戏里提供超过4条甚至8条 Pixel Pipeline显卡的效能。不过，实际情况却与nVidia的初衷有些背道而驰，Shader的完美应用带来的一个结果就是越来越好的非多纹理光效果，传统的多纹理贴图才能表现的很好的光效果现在只需要进行一次贴图或者直接使用Shader就可以达到，这使得NV3X的设计成为了空架子，实用意义大大降低，而在单纹理处理过程中由于NV3X的后续效果单元被削减，它的渲染效能注定没有传统的完整流水线高，另外，由于DX9中的最终FP精度被定义为FP24，这导致了NV3X的相对低下的FP效能。最终，本来“先进”的NV3X构架落的个整体效能低下的下场
从本质上来讲，图形数据在NV3X中的实际处理过程依然是沿着顶点处理器—Setup Engine—像素流水线的顺序进行的，这与R3XX以及所有的第二代GPU是相同的
天堂的入口—可编程Shader3.0，DriectX Next以及未来的GPU
在微软刚刚公布的Driect9.0C中，Vertex Shader和Piexl Shader已经具有了几乎相同的能力，而在nVidia新发布的第四代GPU—NV40中，我们发现Vertex Shader包含了4个纹理取样器，可以使用texld指令进行查表操作， NV40可以在一个 shader pass里完成4个纹理的读取，这个对于通用替换贴图而言相当的重要，有了vertex texturing功能后， vertex shader就能读取纹理信息直接映射到顶点上，以实现displacement mapping（位移映射）等等效果，用不同的纹理和较少的顶点传输时间就能实现外形复杂、平滑的模型，这表明GPU中Vertex Shader的功能正在逐渐接近Piexl Shader。随着GPU的发展，未来GPU中的Vertex Shader和Piexl Shader最终将被合并成一个统一的处理单元—Intergrated Shader，两种处理单元将使用完全相同的语法以及指令集，Shader的统一将带来完全不同与现在的数据执行处理方式，GPU的内部结构将发生本质的变化， Intergrated Shader带来了更低晶体管数目的解决方案，以更少的晶体管数目来完成现在需要数亿晶体管才能完成的功能，同时统一 Shader将引出类似全通用I/O接口的设计以利资源的更合理的传输和分配，同时，为了解决越来越庞大的数据量，虚拟显存、无限资源访问以及帧缓冲操作等技术的引入也势在必行。另外，我们在DirectX Next中还发现了整数指令集，处理器等特殊的定义，这些新颖的设计为我们勾勒出了未来GPU的轮廓
整数指令集
在编程中不必在担心指令限制是一个很大的进步，不过想使得GPU更为通用还需要更多的工作。一个需要提高的主要区域就是整数处理能力。目前基于在着色器中处理的所有数据都是浮点，这对于大多数显卡操作而言是没有问题的，不过不适合动态分支预测、非内插式显存搜索（如顶点缓冲的索引）等操作。在目前的GPU 中，唯一的内存寻址就是纹理查找，使用的也是浮点值。这样的情况对于纹理定位而言没有什么问题，不过对于通用内存寻址而言就不合适了，这里的连续内存块可以完全彼此没有关联，采用内插式查找没有任何意义。微软对于这样的情况，在4.0版的Shader模型中引入了全新的、完整的整数指令集。拓扑处理器实际上，目前的显卡可以在某些情况下新生成三角形，比如在用到直线以及点的时候。大多数的娱乐级显卡只具备对三角形进行光栅化处理的能力，这也就意味着所有的点、线就必须转化为三角形。点和线在最后都将以2个三角形结束，这样就需要用到2-6个顶点（根据索引方式的不同而变化）。从本质上来说，这样的做法是有益处的，通过可编程的管线，显示先前应该遮蔽的场景也就无需通过CPU，而可以通过微软的“拓扑处理器”直接完成。从逻辑上来说，这个拓扑处理器和镶嵌单元是相互独立的，这个处理器在两种操作集中均可以使用。由目前的趋势来看，未来的GPU将向着高运算能力，高精度，高通用性的方向发展，GPU在工作方式上将越来越接近CPU，由于高通用性等CPU特性的引入，GPU可能在一定程度上替代一部分CPU在非绘图领域的工作，也许在未来我们会看到由全GPU组成的图形工作站。尽管未来GPU需要面对由于这些改进而带来得的诸多问题，尤其是通用性导致的效率低下，比如Intergrated Shader的效率低下，但随着时间的推移，各种问题都将会得到妥善的解决。

导航:首页 > 源码编译 > 双流水线算法

双流水线算法

单片机科技论文篇一

单片机科技论文篇二

与双流水线算法相关的资料