大規模並行處理器編程實戰_並行處理的並行演算法的基本策略

A. 上島咖啡里邊什麼好吃

很榮幸.本人曾經在廈門的上島咖啡店裡做過吧台長,自認為對上島還算比較熟悉.要問上島里有什麼好吃的.那要看你想吃什麼.如果你吃的不是吧台里做的.那我就沒辦法介紹了..呵呵
首先介紹咖啡.上島咖啡里的咖啡豆都還不錯.我本人比較喜歡喝黃金藍山.不過價格比較貴.(65元一杯)一般價格的建議喝普通的藍山或者摩卡或者曼特寧都還不錯.(普通的在25元到45元之間)花式咖啡也有好喝的.比如漂浮冰咖啡.(28元)它是用冰咖啡加冰淇淋做的.口感不錯哦.還有冰拿鐵咖啡(25元一杯)也很好!建議試試!
在下來介紹一些簡餐.上島里的三明治有好幾種.有一種很好吃.叫總匯三明治.(28元一份)它是用土司.雞蛋.火腿片.酸黃瓜.培根肉片.西紅柿.和撒拉醬做的..可以吃吃看.我覺得好好吃..!
在一個就是黑胡椒牛排.雖然很便宜.(具體價格忘了.因為我不是做廚房的)但是很好吃,建議試試!
總之上島里.好吃的很多.可以慢慢選擇!但是吃久了也會膩.就象我..進去上班到出來的時候都胖了。

B. 什麼叫微處理器的並行操作方式

以8086為例，執行單元（運算器）和匯流排介面-指令隊列單元
這兩部分同時工作就是一種並行操作方式，執行單元從指令隊列
頭部獲取指令，只要隊列不是空的，它就能一直執行無需等待。
同一時間內，匯流排介面單元從內存中讀取指令，填入隊列尾部，
盡量保證隊列處於「滿」的狀態（8086滿隊列是六條指令）。

也就是說，取指令和執行指令並行完成，基本上互不幹擾。

但是，當執行單元遇到跳轉指令（包括有條件跳轉條件滿足），
則需要清空隊列，從跳轉到的新位置開始重新讀取指令，
這時候就要等待匯流排介面單元從「空」開始重新填隊列了。

這也是為什麼更高級的CPU上面要加上分支指令預測和預取
單元，盡量把跳轉還是不跳轉的問題預測准確，爭取正好
提前取到應該讀取的新位置處的指令隊列的原因。

C. 並行處理的並行演算法的基本策略

在並行處理技術中所使用的演算法主要遵循三種策略：
1．分而治之法：也就是把多個任務分解到多個處理器或多個計算機中，然後再按照一定的拓撲結構來進行求解。
2．重新排序法：分別採用靜態或動態的指令詞度方式。
3．顯式/隱式並行性結合：顯式指的是並行語言通過編譯形成並行程序，隱式指的是串列語言通過編譯形成並行程序，顯式/隱式並行性結合的關鍵就在於並行編譯，而並行編譯涉及到語句、程序段、進程以及各級程序的並行性。
二、並行性描述定義
利用計算機語言進行並行性描述的時候主要有三種方案：
1．語言擴展方案：也就是利用各種語言的庫函數來進行並行性功能的擴展。
2．編譯制導法：也稱為智能編譯，它是隱式並行策略的體現，主要是由並行編譯系統進行程序表示、控制流的分析、相關分析、優化分析和並行化劃分，由相關分析得到方法庫管理方案，由優化分析得到知識庫管理方案，由並行化劃分得到程序重構，從而形成並行程序。
3．新的語言結構法：這是顯式並行策略的體現。也就是建立一種全新的並行語言的體系，而這種並行語言通過編譯就能直接形成並行程序。
三、並行軟體
並行軟體可分成並行系統軟體和並行應用軟體兩大類，並行系統軟體主要指並行編譯系統和並行操作系統，並行應用軟體主要指各種軟體工具和應用軟體包。在軟體中所牽涉到的程序的並行性主要是指程序的相關性和網路互連兩方面。
1．程序的相關性：程序的相關性主要分為數據相關、控制相關和資源相關三類。
數據相關說明的是語句之間的有序關系，主要有流相關、反相關、輸出相關、I/O相關和求知相關等，這種關系在程序運行前就可以通過分析程序確定下來。數據相關是一種偏序關系，程序中並不是每一對語句的成員都是相關聯的。可以通過分析程序的數據相關，把程序中一些不存在相關性的指令並行地執行，以提高程序運行的速度。
控制相關指的是語句執行次序在運行前不能確定的情況。它一般是由轉移指令引起的，只有在程序執行到一定的語句時才能判斷出語句的相關性。控制相關常使正在開發的並行性中止，為了開發更多的並行性，必須用編譯技術克服控制相關。
而資源相關則與系統進行的工作無關，而與並行事件利用整數部件、浮點部件、寄存器和存儲區等共享資源時發生的沖突有關。軟體的並行性主要是由程序的控制相關和數據相關性決定的。在並行性開發時往往把程序劃分成許多的程序段——顆粒。顆粒的規模也稱為粒度，它是衡量軟體進程所含計算量的尺度，一般用細、中、粗來描述。劃分的粒度越細，各子系統間的通信時延也越低，並行性就越高，但系統開銷也越大。因此，我們在進行程序組合優化的時候應該選擇適當的粒度，並且把通訊時延盡可能放在程序段中進行，還可以通過軟硬體適配和編譯優化的手段來提高程序的並行度。
2．網路互連：將計算機子系統互連在一起或構造多處理機或多計算機時可使用靜態或動態拓撲結構的網路。靜態網路由點一點直接相連而成，這種連接方式在程序執行過程中不會改變，常用來實現集中式系統的子系統之間或分布式系統的多個計算結點之間的固定連接。動態網路是用開關通道實現的，它可動態地改變結構，使之與用戶程序中的通信要求匹配。動態網路包括匯流排、交叉開關和多級網路，常用於共享存儲型多處理機中。在網路上的消息傳遞主要通過尋徑來實現。常見的尋徑方式有存儲轉發尋徑和蟲蝕尋徑等。在存儲轉發網路中以長度固定的包作為信息流的基本單位，每個結點有一個包緩沖區，包從源結點經過一系列中間結點到達目的結點。存儲轉發網路的時延與源和目的之間的距離(段數)成正比。而在新型的計算機系統中採用蟲蝕尋徑，把包進一步分成一些固定長度的片，與結點相連的硬體尋徑器中有片緩沖區。消息從源傳送到目的結點要經過一系列尋徑器。同一個包中所有的片以流水方式順序傳送，不同的包可交替地傳送，但不同包的片不能交叉，以免被送到錯誤的目的地。蟲蝕尋徑的時延幾乎與源和目的之間的距離無關。在尋徑中產生的死鎖問題可以由虛擬通道來解決。虛擬通道是兩個結點間的邏輯鏈，它由源結點的片緩沖區、結點間的物理通道以及接收結點的片緩沖區組成。物理通道由所有的虛擬通道分時地共享。虛擬通道雖然可以避免死鎖，但可能會使每個請求可用的有效通道頻寬降低。因此，在確定虛擬通道數目時，需要對網路吞吐量和通信時延折衷考慮。
四、硬體技術在硬體技術方面主要從處理機、存儲器和流水線三個方面來實現並行。
1．處理機：主要的處理機系列包括CISC、RISC、超標量、VL1W、超流水線、向量以及符號處理機。
傳統的處理機屬於復雜指令系統計算(CISC)結構。指令系統大，指令格式可變，通用寄存器個數較少，基本上使用合一的指令與數據高速緩存，時鍾頻率較低，CPI較高，大多數利用ROM 實現微碼控制CPU，而當今的精簡指令系統計算(RISC)處理機指令格式簡單規范，面向寄存器堆，採用重疊寄存器窗口技術，具有多級Cache，多種流水線結構，強調編譯優化技術，時鍾頻率快，CPI低，大多數用硬連線控制CPU。
CISC或RISC標量處理機都可以採用超標量或向量結構來改善性能。標量處理機在每個周期內只發射一條指令並要求周期只完成從流水線來的一條指令。而在超標量處理機中，使用了多指令流水線，每個周期要發射多條指令並產生多個結果。由於希望程序中有許多的指令級並行性，因此超標量處理機更要依靠優化編譯器去開發並行性。
VL1W 結構是將水平微碼和超標量處理這兩種普遍採用的概念結合起來產生的。典型的超長指令字VL1W 機器指令字長度有數百位。在VLlW 處理機中，多個功能部件是並發工作的，所有的功能部件共享使用公用大型寄存器堆，由功能部件同時執行的各種操作是用VL1W 指令來同步的，每條指令可指定多個操作。VL1W 指令解碼比超標量指令容易，但在開發不同數量的並行性時總是需要不同的指令系統。VL1W 主要是開發標量操作之間的並行性，它的成功與否很大程度取決於代碼壓縮的效率，其結構和任何傳統的通用處理機完全不兼容。即使同一結構的不同實現也不大可能做到彼此二進制兼容。VL1W 的主要優點在於它的硬體結構和指令系統簡單，在科學應用領域可以發揮良好作用，但在一般應用場合可能並不很好用。
向量處理機對數組執行向量指令，每條指令都包含一串重復的操作。它是專門設計用來完成向量運算的協處理機，通常用於多流水線超級計算機中。向量處理機可以利用循環級展開所得的並行性，它可以附屬於任何標量處理機。專用的向量流水線可以在循環控制中消除某些軟體開銷，它的效果與優化編譯器將順序代碼向量化的性能很有關系。從理論上說，向量機可以具有和超標量處理機同樣的性能，因此可以說向量機的並行性與超標量機相同。
符號處理機是為AI應用而研製的，已用於定理證明、模式識別、專家系統、知識工程、文本檢索、科學以及機器智能等許多應用領域。在這些應用中，數據和知識表達式、原語操作、演算法特性、存儲器、I/0和通信以及專用的結構特性與數值計算是不一樣的，符號處理機也稱為邏輯程序設計語言處理機、表處理語言處理機或符號變換器。符號處理並不和數值數據打交道，它處理的是邏輯程序、符號表、對象、劇本、黑板、產生式系統、語義網路、框架以及人工神經網路等問題。這些操作需要專門的指令系統，通常不使用浮點操作。
2．存儲器：存儲設備按容量和存取時間從低到高可分為寄存器、高速緩存、主存儲器、磁碟設備和磁帶機五個層次。較低層存儲設備與較高層的相比，存取速度較快、容量較小，每位元組成本較高、帶寬較寬、傳輸單位較小。
存放在存儲器層次結構中的信息滿足三個重要特性：包含性、一致性和局部性。所謂包含性，指的是一個信息字的復製品可以在比它高的所有層中找到，而如果在高層中丟失了一個信息，則在比它低的所有層中此信息也將丟失。CPU 和高速緩存之間的信息傳送是按字進行的，高速緩存和主存儲器間用塊作為數據傳送的基本單位，主存和磁碟之間又是以頁面為基本單位來傳送信息的，而在磁碟和磁帶機之間的數據傳送則是按文件級處理的。所謂一致性要求的是同一個信息項與後繼存儲器層次上的副本是一致的。也就是說，如果在高速緩存中的一個字被修改過，那麼在所有更高層上該字的副本也必須立即或最後加以修改。為了盡量減少存儲器層次結構的有效存取時間，通常把頻繁使用的信息放在較低層次。維護存儲器層次結構一致性一般有兩種策略，一種是寫直達策略，也就是如果，則立即在所有高層存儲器中進行同樣的修改；另一種是寫回策略，也就是在較低層中對信息進行修改後並不立即在高層存儲器中進行相應的修改，而是等到該信息將被替換或將從低層中消失時才在所有高層存儲器中進行同樣的修改。甚至可以將寫直達和寫回策略的優點結合起來，形成寫一次協議來維護存儲器的一致性。
存儲器的層次結構是在一種程序行為——訪問的局部性基礎上開發出來的。主要有時間局部性、空間局部性和順序局部性。時間局部性指的是最近的訪問項很可能在不久的將來再次被訪問。它往往會引起對最近使用區域的集中訪問。空間局部性表示一種趨勢，指的是一個進程訪問的各項其地址彼此很近。順序局部性指的是在典型程序中，除非是轉移指令，一般指令都是順序執行的。
在多處理機系統中一般使用共享存儲器。對共享存儲器的組織一般採用低位交叉、高位交叉、高低位交叉三種方法。低位交叉又稱並發存取，它是把相鄰的地址放在相鄰的存儲器模塊中，在訪問時不容易產生沖突，並行性較好，但可靠性容錯能力和擴展性均較差。高位交叉又稱允許同時存取，它是把相鄰地址分配到同一個存儲器模塊中，可靠性、容錯能力和擴展性均較強，但訪問時易產生沖突，帶寬較窄，並行性較差。高低位交叉存取又稱C—s存取，它是結合了高位交叉和低位交叉兩種方法的優點，既解決了沖突問題，又能有效地提高容錯能力和並行性，最適合於向量處理機結構。
3．流水線：流水線技術主要有指令流水線技術和運算流水線技術兩種。
指令流水線技術主要目的是要提高計算機的運行效率和吞吐率。它主要通過設置預取指令緩沖區、設置多功能部件、進行內部數據定向、採取適當的指令調度策略來實現。指令調度的策略主要有靜態和動態兩種，靜態詞度是基於軟體的，主要由編譯器完成，動態詞度是基於硬體的，主要是通過硬體技術進行。
運算流水線主要有單功能流水線和多功能流水線兩種。其中多功能流水線又可分為靜態流水線和動態流水線。靜態流水線技術只用來實現確定的功能，而動態流水線可以在不同時間重新組合，實現不同的功能，它除流線連接外，還允許前饋和反饋連接，因此也稱為非線性流水線。這些前饋和反饋連接使得進入流水線的相繼事件的詞度變得很不簡單。由於這些連接，流水線不一定從最後一段輸出。根據不同的數據流動模式，人們可以用同一條流水線求得不同功能的值。
並行計算機發展簡述
40 年代開始的現代計算機發展歷程可以分為兩個明顯的發展時代：串列計算時代、並行計算時代。每一個計算時代都從體系結構發展開始，接著是系統軟體（特別是編譯器與操作系統）、應用軟體，最後隨著問題求解環境的發展而達到頂峰。創建和使用並行計算機的主要原因是因為並行計算機是解決單處理器速度瓶頸的最好方法之一。
並行計算機是由一組處理單元組成的，這組處理單元通過相互之間的通信與協作，以更快的速度共同完成一項大規模的計算任務。因此，並行計算機的兩個最主要的組成部分是計算節點和節點間的通信與協作機制。並行計算機體系結構的發展也主要體現在計算節點性能的提高以及節點間通信技術的改進兩方面。
60 年代初期，由於晶體管以及磁芯存儲器的出現，處理單元變得越來越小，存儲器也更加小巧和廉價。這些技術發展的結果導致了並行計算機的出現，這一時期的並行計算機多是規模不大的共享存儲多處理器系統，即所謂大型主機（Mainframe）。IBM360 是這一時期的典型代表。
到了60 年代末期，同一個處理器開始設置多個功能相同的功能單元，流水線技術也出現了。與單純提高時鍾頻率相比，這些並行特性在處理器內部的應用大大提高了並行計算機系統的性能。伊利諾依大學和Burroughs 公司此時開始實施IlliacIV 計劃，研製一台64 個CPU 的SIMD 主機系統，它涉及到硬體技術、體系結構、I/O 設備、操作系統、程序設計語言直至應用程序在內的眾多研究課題。不過，當一台規模大大縮小了的16CPU 系統終於在1975 年面世時，整個計算機界已經發生了巨大變化。
首先是存儲系統概念的革新，提出虛擬存儲和緩存的思想。IBM360/85 系統與360/91是屬於同一系列的兩個機型，360/91 的主頻高於360/85，所選用的內存速度也較快，並且採用了動態調度的指令流水線；但是，360/85 的整體性能卻高於360/91，唯一的原因就是前者採用了緩存技術，而後者則沒有。
其次是半導體存儲器開始代替磁芯存儲器。最初，半導體存儲器只是在某些機器被用作緩存，而CDC7600 則率先全面採用這種體積更小、速度更快、可以直接定址的半導體存儲器，磁芯存儲器從此退出了歷史舞台。與此同時，集成電路也出現了，並迅速應用到了計算機中。元器件技術的這兩大革命性突破，使得IlliacIV 的設計者們在底層硬體以及並行體系結構方面提出的種種改進都大為遜色。
1976 年CRAY-1 問世以後，向量計算機從此牢牢地控制著整個高性能計算機市場15 年。CRAY-1 對所使用的邏輯電路進行了精心的設計，採用了我們如今稱為RISC 的精簡指令集，還引入了向量寄存器，以完成向量運算。這一系列全新技術手段的使用，使CRAY-1 的主頻達到了80MHz。
微處理器隨著機器的字長從4 位、8 位、16 位一直增加到32 位，其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力，卡內基- 梅隆大學開始在當時流行的DECPDP11 小型計算機的基礎上研製成功一台由16 個PDP11/40 處理機通過交叉開關與16 個共享存儲器模塊相連接而成的共享存儲多處理器系統C.mmp。
從80 年代開始，微處理器技術一直在高速前進。稍後又出現了非常適合於SMP 方式的匯流排協議，而伯克利加州大學則對匯流排協議進行了擴展，提出了Cache 一致性問題的處理方案。從此，C.mmp 開創出的共享存儲多處理器之路越走越寬；現在，這種體系結構已經基本上統治了伺服器和桌面工作站市場。
同一時期，基於消息傳遞機制的並行計算機也開始不斷涌現。80 年代中期，加州理工成功地將64 個i8086/i8087 處理器通過超立方體互連結構連結起來。此後，便先後出現了Intel iPSC 系列、INMOS Transputer 系列，Intel Paragon 以及IBM SP 的前身Vulcan 等基於消息傳遞機制的並行計算機。
80 年代末到90 年代初，共享存儲器方式的大規模並行計算機又獲得了新的發展。IBM將大量早期RISC 微處理器通過蝶形互連網路連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時，使系統具有一定的可擴展性（Scalability）。90 年代初期，斯坦福大學提出了DASH 計劃，它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分布式共享存儲器的緩存一致性。後來，IEEE 在此基礎上提出了緩存一致性協議的標准。
90 年代以來，主要的幾種體系結構開始走向融合。屬於數據並行類型的CM-5 除大量採用商品化的微處理器以外，也允許用戶層的程序傳遞一些簡單的消息；CRAY T3D是一台NUMA 結構的共享存儲型並行計算機，但是它也提供了全局同步機制、消息隊列機制，並採取了一些減少消息傳遞延遲的技術。
隨著商品化微處理器、網路設備的發展，以及MPI/PVM 等並行編程標準的發布，機群架構的並行計算機出現。IBM SP2 系列機群系統就是其中的典型代表。在這些系統中，各個節點採用的都是標準的商品化計算機，它們之間通過高速網路連接起來。
今天，越來越多的並行計算機系統採用商品化的微處理器加上商品化的互連網路構造，這種分布存儲的並行計算機系統稱為機群。國內幾乎所有的高性能計算機廠商都生產這種具有極高性能價格比的高性能計算機，並行計算機就進入了一個新的時代，並行計算的應用達到了前所未有的廣度和深度。
並行計算機隨著微處理晶元的發展，已經進入了一個新時代。目前並行計算機的性能已經突破20PFLOPS，正在向百億億次發展。我國並行計算機的研製已經走在世界前列。2003年由聯想公司生產的深騰6800 在2003 年11 月世界TOP500 排名中位列第14 名，2004 年曙光公司生產的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名，這是我國公開發布的高性能計算機在世界TOP500 中首次進入前十名，這標志著我國在並行計算機系統的研製和生產中已經趕上了國際先進水平，為提高我國的科學研究水平奠定了物質基礎。2013年國際超級計算機大會最新發布的世界超級計算機500強排名中，國防科技大學研製的天河二號超級計算機系統，以峰值計算速度每秒5.49億億次、持續計算速度每秒3.39億億次雙精度浮點運算的優異性能位居榜首。
從TOP500 的前10 名來看，美國仍然是超級計算機的最大擁有者。按照世界TOP500 的統計數據來分析，美國在計算能力上佔有近全世界的一半，在TOP500 中的所有計算機中擁有的數量超過50%。

D. 我想通過如下命令觀察出CPU與CLA是並行運行的，可行么

一。主頻
主頻也叫時鍾頻率，單位是MHz（或GHz），用來表示CPU的運算、處理數據的速度。CPU的主頻＝外頻×倍頻系數。很多人認為主頻就決定著CPU的運行速度，這不僅是個片面的，而且對於伺服器來講，這個認識也出現了偏差。至今，沒有一條確定的公式能夠實現主頻和實際的運算速度兩者之間的數值關系，即使是兩大處理器廠家Intel英特爾和AMD，在這點上也存在著很大的爭議，從Intel的產品的發展趨勢，可以看出Intel很注重加強自身主頻的發展。像其他的處理器廠家，有人曾經拿過一塊1G的全美達處理器來做比較，它的運行效率相當於2G的Intel處理器。
所以，CPU的主頻與CPU實際的運算能力是沒有直接關系的，主頻表示在CPU內數字脈沖信號震盪的速度。在Intel的處理器產品中，也可以看到這樣的例子：1 GHz Itanium晶元能夠表現得差不多跟2.66 GHz至強（ Xeon）/Opteron一樣快，或是1.5 GHz Itanium 2大約跟4 GHz Xeon/Opteron一樣快。CPU的運算速度還要看CPU的流水線、匯流排等等各方面的性能指標。
主頻和實際的運算速度是有關的，只能說主頻僅僅是CPU性能表現的一個方面，而不代表CPU的整體性能。
二。外頻
外頻是CPU的基準頻率，單位是MHz。CPU的外頻決定著整塊主板的運行速度。通俗地說，在台式機中，所說的超頻，都是超CPU的外頻（當然一般情況下，CPU的倍頻都是被鎖住的）相信這點是很好理解的。但對於伺服器CPU來講，超頻是絕對不允許的。前面說到CPU決定著主板的運行速度，兩者是同步運行的，如果把伺服器CPU超頻了，改變了外頻，會產生非同步運行，（台式機很多主板都支持非同步運行）這樣會造成整個伺服器系統的不穩定。
目前的絕大部分電腦系統中外頻與主板前端匯流排不是同步速度的，而外頻與前端匯流排（FSB）頻率又很容易被混為一談，下面的前端匯流排介紹談談兩者的區別。
三。前端匯流排（FSB）頻率
前端匯流排（FSB）頻率（即匯流排頻率）是直接影響CPU與內存直接數據交換速度。有一條公式可以計算，即數據帶寬＝（匯流排頻率×數據位寬）/8，數據傳輸最大帶寬取決於所有同時傳輸的數據的寬度和傳輸頻率。比方，現在的支持64位的至強Nocona，前端匯流排是800MHz，按照公式，它的數據傳輸最大帶寬是6.4GB/秒。
外頻與前端匯流排（FSB）頻率的區別：前端匯流排的速度指的是數據傳輸的速度，外頻是CPU與主板之間同步運行的速度。也就是說，100MHz外頻特指數字脈沖信號在每秒鍾震盪一億次；而100MHz前端匯流排指的是每秒鍾CPU可接受的數據傳輸量是100MHz×64bit÷8bit/Byte=800MB/s。
其實現在「HyperTransport」構架的出現，讓這種實際意義上的前端匯流排（FSB）頻率發生了變化。IA-32架構必須有三大重要的構件：內存控制器Hub （MCH） ,I/O控制器Hub和PCI Hub，像Intel很典型的晶元組 Intel 7501、Intel7505晶元組，為雙至強處理器量身定做的，它們所包含的MCH為CPU提供了頻率為533MHz的前端匯流排，配合DDR內存，前端匯流排帶寬可達到4.3GB/秒。但隨著處理器性能不斷提高同時給系統架構帶來了很多問題。而「HyperTransport」構架不但解決了問題，而且更有效地提高了匯流排帶寬，比方AMD Opteron處理器，靈活的HyperTransport I/O匯流排體系結構讓它整合了內存控制器，使處理器不通過系統匯流排傳給晶元組而直接和內存交換數據。這樣的話，前端匯流排（FSB）頻率在AMD Opteron處理器就不知道從何談起了。
四。CPU的位和字長
位：在數字電路和電腦技術中採用二進制，代碼只有「0」和「1」，其中無論是「0」或是「1」在CPU中都是一「位」。
字長：電腦技術中對CPU在單位時間內（同一時間）能一次處理的二進制數的位數叫字長。所以能處理字長為8位數據的CPU通常就叫8位的CPU。同理32位的CPU就能在單位時間內處理字長為32位的二進制數據。位元組和字長的區別：由於常用的英文字元用8位二進制就可以表示，所以通常就將8位稱為一個位元組。字長的長度是不固定的，對於不同的CPU、字長的長度也不一樣。8位的CPU一次只能處理一個位元組，而32位的CPU一次就能處理4個位元組，同理字長為64位的CPU一次可以處理8個位元組。
五。倍頻系數
倍頻系數是指CPU主頻與外頻之間的相對比例關系。在相同的外頻下，倍頻越高CPU的頻率也越高。但實際上，在相同外頻的前提下，高倍頻的CPU本身意義並不大。這是因為CPU與系統之間數據傳輸速度是有限的，一味追求高倍頻而得到高主頻的CPU就會出現明顯的「瓶頸」效應—CPU從系統中得到數據的極限速度不能夠滿足CPU運算的速度。一般除了工程樣版的Intel的CPU都是鎖了倍頻的，少量的如Inter 酷睿2 核心的奔騰雙核E6500K和一些至尊版的CPU不鎖倍頻，而AMD之前都沒有鎖，現在AMD推出了黑盒版CPU（即不鎖倍頻版本，用戶可以自由調節倍頻，調節倍頻的超頻方式比調節外頻穩定得多）。
六。緩存
緩存大小也是CPU的重要指標之一，而且緩存的結構和大小對CPU速度的影響非常大，CPU內緩存的運行頻率極高，一般是和處理器同頻運作，工作效率遠遠大於系統內存和硬碟。實際工作時，CPU往往需要重復讀取同樣的數據塊，而緩存容量的增大，可以大幅度提升CPU內部讀取數據的命中率，而不用再到內存或者硬碟上尋找，以此提高系統性能。但是由於CPU晶元面積和成本的因素來考慮，緩存都很小。
L1Cache（一級緩存）是CPU第一層高速緩存，分為數據緩存和指令緩存。內置的L1高速緩存的容量和結構對CPU的性能影響較大，不過高速緩沖存儲器均由靜態RAM組成，結構較復雜，在CPU管芯面積不能太大的情況下，L1級高速緩存的容量不可能做得太大。一般伺服器CPU的L1緩存的容量通常在32—256KB。
L2Cache（二級緩存）是CPU的第二層高速緩存，分內部和外部兩種晶元。內部的晶元二級緩存運行速度與主頻相同，而外部的二級緩存則只有主頻的一半。L2高速緩存容量也會影響CPU的性能，原則是越大越好，以前家庭用CPU容量最大的是512KB，現在筆記本電腦中也可以達到2M，而伺服器和工作站上用CPU的L2高速緩存更高，可以達到8M以上。
L3Cache（三級緩存），分為兩種，早期的是外置，現在的都是內置的。而它的實際作用即是，L3緩存的應用可以進一步降低內存延遲，同時提升大數據量計算時處理器的性能。降低內存延遲和提升大數據量計算能力對游戲都很有幫助。而在伺服器領域增加L3緩存在性能方面仍然有顯著的提升。比方具有較大L3緩存的配置利用物理內存會更有效，故它比較慢的磁碟I/O子系統可以處理更多的數據請求。具有較大L3緩存的處理器提供更有效的文件系統緩存行為及較短消息和處理器隊列長度。
其實最早的L3緩存被應用在AMD發布的K6-III處理器上，當時的L3緩存受限於製造工藝，並沒有被集成進晶元內部，而是集成在主板上。在只能夠和系統匯流排頻率同步的L3緩存同主內存其實差不了多少。後來使用L3緩存的是英特爾為伺服器市場所推出的Itanium處理器。接著就是P4EE和至強MP。Intel還打算推出一款9MB L3緩存的Itanium2處理器，和以後24MB L3緩存的雙核心Itanium2處理器。
但基本上L3緩存對處理器的性能提高顯得不是很重要，比方配備1MB L3緩存的Xeon MP處理器卻仍然不是Opteron的對手，由此可見前端匯流排的增加，要比緩存增加帶來更有效的性能提升。
七。CPU擴展指令集
CPU依靠指令來計算和控制系統，每款CPU在設計時就規定了一系列與其硬體電路相配合的指令系統。指令的強弱也是CPU的重要指標，指令集是提高微處理器效率的最有效工具之一。從現階段的主流體系結構講，指令集可分為復雜指令集和精簡指令集兩部分，而從具體運用看，如Intel的MMX（Multi Media Extended）、SSE、 SSE2（Streaming-Single instruction multiple data-Extensions 2）、SEE3、SSE4系列和AMD的3DNow!等都是CPU的擴展指令集，分別增強了CPU的多媒體、圖形圖象和Internet等的處理能力。通常會把CPU的擴展指令集稱為「CPU的指令集」。SSE3指令集也是目前規模最小的指令集，此前MMX包含有57條命令，SSE包含有50條命令，SSE2包含有144條命令，SSE3包含有13條命令。目前SSE4也是最先進的指令集，英特爾酷睿系列處理器已經支持SSE4指令集，AMD會在未來雙核心處理器當中加入對SSE4指令集的支持，全美達的處理器也將支持這一指令集。
八。CPU內核和I/O工作電壓
從586CPU開始，CPU的工作電壓分為內核電壓和I/O電壓兩種，通常CPU的核心電壓小於等於I/O電壓。其中內核電壓的大小是根據CPU的生產工藝而定，一般製作工藝越小，內核工作電壓越低；I/O電壓一般都在1.6~5V。低電壓能解決耗電過大和發熱過高的問題。
九。製造工藝
製造工藝的微米是指IC內電路與電路之間的距離。製造工藝的趨勢是向密集度愈高的方向發展。密度愈高的IC電路設計，意味著在同樣大小面積的IC中，可以擁有密度更高、功能更復雜的電路設計。現在主要的180nm、130nm、90nm、65nm、45納米。最近官方已經表示有32納米的製造工藝了。
十。指令集
（1）CISC指令集
CISC指令集，也稱為復雜指令集，英文名是CISC，（Complex Instruction Set Computer的縮寫）。在CISC微處理器中，程序的各條指令是按順序串列執行的，每條指令中的各個操作也是按順序串列執行的。順序執行的優點是控制簡單，但計算機各部分的利用率不高，執行速度慢。其實它是英特爾生產的x86系列（也就是IA-32架構）CPU及其兼容CPU，如AMD、VIA的。即使是現在新起的X86-64（也被成AMD64）都是屬於CISC的范疇。
要知道什麼是指令集還要從當今的X86架構的CPU說起。X86指令集是Intel為其第一塊16位CPU（i8086）專門開發的，IBM1981年推出的世界第一台PC機中的CPU—i8088（i8086簡化版）使用的也是X86指令，同時電腦中為提高浮點數據處理能力而增加了X87晶元，以後就將X86指令集和X87指令集統稱為X86指令集。
雖然隨著CPU技術的不斷發展，Intel陸續研製出更新型的i80386、i80486直到過去的PII至強、PIII至強、Pentium 3，Pentium 4系列，最後到今天的酷睿2系列、至強（不包括至強Nocona），但為了保證電腦能繼續運行以往開發的各類應用程序以保護和繼承豐富的軟體資源，所以Intel公司所生產的所有CPU仍然繼續使用X86指令集，所以它的CPU仍屬於X86系列。由於Intel X86系列及其兼容CPU（如AMD Athlon MP、）都使用X86指令集，所以就形成了今天龐大的X86系列及兼容CPU陣容。x86CPU目前主要有intel的伺服器CPU和AMD的伺服器CPU兩類。
（2）RISC指令集
RISC是英文「Reced Instruction Set Computing 」的縮寫，中文意思是「精簡指令集」。它是在CISC指令系統基礎上發展起來的，有人對CISC機進行測試表明，各種指令的使用頻度相當懸殊，最常使用的是一些比較簡單的指令，它們僅占指令總數的20％，但在程序中出現的頻度卻佔80％。復雜的指令系統必然增加微處理器的復雜性，使處理器的研製時間長，成本高。並且復雜指令需要復雜的操作，必然會降低計算機的速度。基於上述原因，20世紀80年代RISC型CPU誕生了，相對於CISC型CPU ,RISC型CPU不僅精簡了指令系統，還採用了一種叫做「超標量和超流水線結構」，大大增加了並行處理能力。RISC指令集是高性能CPU的發展方向。它與傳統的CISC（復雜指令集）相對。相比而言，RISC的指令格式統一，種類比較少，定址方式也比復雜指令集少。當然處理速度就提高很多了。目前在中高檔伺服器中普遍採用這一指令系統的CPU，特別是高檔伺服器全都採用RISC指令系統的CPU。RISC指令系統更加適合高檔伺服器的操作系統UNIX，現在Linux也屬於類似UNIX的操作系統。RISC型CPU與Intel和AMD的CPU在軟體和硬體上都不兼容。
目前，在中高檔伺服器中採用RISC指令的CPU主要有以下幾類：PowerPC處理器、SPARC處理器、PA-RISC處理器、MIPS處理器、Alpha處理器。
3）IA-64
EPIC（Explicitly Parallel Instruction Computers，精確並行指令計算機）是否是RISC和CISC體系的繼承者的爭論已經有很多，單以EPIC體系來說，它更像Intel的處理器邁向RISC體系的重要步驟。從理論上說，EPIC體系設計的CPU，在相同的主機配置下，處理Windows的應用軟體比基於Unix下的應用軟體要好得多。
Intel採用EPIC技術的伺服器CPU是安騰Itanium（開發代號即Merced）。它是64位處理器，也是IA－64系列中的第一款。微軟也已開發了代號為Win64的操作系統，在軟體上加以支持。在Intel採用了X86指令集之後，它又轉而尋求更先進的64-bit微處理器，Intel這樣做的原因是，它們想擺脫容量巨大的x86架構，從而引入精力充沛而又功能強大的指令集，於是採用EPIC指令集的IA-64架構便誕生了。IA-64 在很多方面來說，都比x86有了長足的進步。突破了傳統IA32架構的許多限制，在數據的處理能力，系統的穩定性、安全性、可用性、可觀理性等方面獲得了突破性的提高。
IA-64微處理器最大的缺陷是它們缺乏與x86的兼容，而Intel為了IA-64處理器能夠更好地運行兩個朝代的軟體，它在IA-64處理器上（Itanium、Itanium2 ……）引入了x86-to-IA-64的解碼器，這樣就能夠把x86指令翻譯為IA-64指令。這個解碼器並不是最有效率的解碼器，也不是運行x86代碼的最好途徑（最好的途徑是直接在x86處理器上運行x86代碼），因此Itanium 和Itanium2在運行x86應用程序時候的性能非常糟糕。這也成為X86-64產生的根本原因。
4）X86-64 （AMD64 / EM64T）
AMD公司設計，可以在同一時間內處理64位的整數運算，並兼容於X86-32架構。其中支持64位邏輯定址，同時提供轉換為32位定址選項；但數據操作指令默認為32位和8位，提供轉換成64位和16位的選項；支持常規用途寄存器，如果是32位運算操作，就要將結果擴展成完整的64位。這樣，指令中有「直接執行」和「轉換執行」的區別，其指令欄位是8位或32位，可以避免欄位過長。
x86-64（也叫AMD64）的產生也並非空穴來風，x86處理器的32bit定址空間限制在4GB內存，而IA-64的處理器又不能兼容x86。AMD充分考慮顧客的需求，加強x86指令集的功能，使這套指令集可同時支持64位的運算模式，因此AMD把它們的結構稱之為x86-64。在技術上AMD在x86-64架構中為了進行64位運算，AMD為其引入了新增了R8-R15通用寄存器作為原有X86處理器寄存器的擴充，但在而在32位環境下並不完全使用到這些寄存器。原來的寄存器諸如EAX、EBX也由32位擴張至64位。在SSE單元中新加入了8個新寄存器以提供對SSE2的支持。寄存器數量的增加將帶來性能的提升。與此同時，為了同時支持32和64位代碼及寄存器，x86-64架構允許處理器工作在以下兩種模式：Long Mode（長模式）和Legacy Mode（遺傳模式），Long模式又分為兩種子模式（64bit模式和Compatibility mode兼容模式）。該標准已經被引進在AMD伺服器處理器中的Opteron處理器。
而今年也推出了支持64位的EM64T技術，再還沒被正式命為EM64T之前是IA32E，這是英特爾64位擴展技術的名字，用來區別X86指令集。Intel的EM64T支持64位sub-mode，和AMD的X86-64技術類似，採用64位的線性平面定址，加入8個新的通用寄存器（GPRs），還增加8個寄存器支持SSE指令。與AMD相類似，Intel的64位技術將兼容IA32和IA32E，只有在運行64位操作系統下的時候，才將會採用IA32E。IA32E將由2個sub-mode組成：64位sub-mode和32位sub-mode，同AMD64一樣是向下兼容的。Intel的EM64T將完全兼容AMD的X86-64技術。現在Nocona處理器已經加入了一些64位技術，Intel的Pentium 4E處理器也支持64位技術。
應該說，這兩者都是兼容x86指令集的64位微處理器架構，但EM64T與AMD64還是有一些不一樣的地方，AMD64處理器中的NX位在Intel的處理器中將沒有提供。
十一。超流水線與超標量
在解釋超流水線與超標量前，先了解流水線（pipeline）。流水線是Intel首次在486晶元中開始使用的。流水線的工作方式就象工業生產上的裝配流水線。在CPU中由5—6個不同功能的電路單元組成一條指令處理流水線，然後將一條X86指令分成5—6步後再由這些電路單元分別執行，這樣就能實現在一個CPU時鍾周期完成一條指令，因此提高CPU的運算速度。經典奔騰每條整數流水線都分為四級流水，即指令預取、解碼、執行、寫回結果，浮點流水又分為八級流水。
超標量是通過內置多條流水線來同時執行多個處理器，其實質是以空間換取時間。而超流水線是通過細化流水、提高主頻，使得在一個機器周期內完成一個甚至多個操作，其實質是以時間換取空間。例如Pentium 4的流水線就長達20級。將流水線設計的步（級）越長，其完成一條指令的速度越快，因此才能適應工作主頻更高的CPU。但是流水線過長也帶來了一定副作用，很可能會出現主頻較高的CPU實際運算速度較低的現象，Intel的奔騰4就出現了這種情況，雖然它的主頻可以高達1.4G以上，但其運算性能卻遠遠比不上AMD 1.2G的速龍甚至奔騰III。
十二。封裝形式
CPU封裝是採用特定的材料將CPU晶元或CPU模塊固化在其中以防損壞的保護措施，一般必須在封裝後CPU才能交付用戶使用。CPU的封裝方式取決於CPU安裝形式和器件集成設計，從大的分類來看通常採用Socket插座進行安裝的CPU使用PGA（柵格陣列）方式封裝，而採用Slot x槽安裝的CPU則全部採用SEC（單邊接插盒）的形式封裝。現在還有PLGA（Plastic Land Grid Array）、OLGA（Organic Land Grid Array）等封裝技術。由於市場競爭日益激烈，目前CPU封裝技術的發展方向以節約成本為主。
十三。多線程
同時多線程Simultaneous multithreading，簡稱SMT。SMT可通過復制處理器上的結構狀態，讓同一個處理器上的多個線程同步執行並共享處理器的執行資源，可最大限度地實現寬發射、亂序的超標量處理，提高處理器運算部件的利用率，緩和由於數據相關或Cache未命中帶來的訪問內存延時。當沒有多個線程可用時，SMT處理器幾乎和傳統的寬發射超標量處理器一樣。SMT最具吸引力的是只需小規模改變處理器核心的設計，幾乎不用增加額外的成本就可以顯著地提升效能。多線程技術則可以為高速的運算核心准備更多的待處理數據，減少運算核心的閑置時間。這對於桌面低端系統來說無疑十分具有吸引力。Intel從3.06GHz Pentium 4開始，所有處理器都將支持SMT技術。
十四。多核心
多核心，也指單晶元多處理器（Chip multiprocessors，簡稱CMP）。CMP是由美國斯坦福大學提出的，其思想是將大規模並行處理器中的SMP（對稱多處理器）集成到同一晶元內，各個處理器並行執行不同的進程。與CMP比較， SMT處理器結構的靈活性比較突出。但是，當半導體工藝進入0.18微米以後，線延時已經超過了門延遲，要求微處理器的設計通過劃分許多規模更小、局部性更好的基本單元結構來進行。相比之下，由於CMP結構已經被劃分成多個處理器核來設計，每個核都比較簡單，有利於優化設計，因此更有發展前途。目前，IBM 的Power 4晶元和Sun的 MAJC5200晶元都採用了CMP結構。多核處理器可以在處理器內部共享緩存，提高緩存利用率，同時簡化多處理器系統設計的復雜度。
2005年下半年，Intel和AMD的新型處理器也將融入CMP結構。新安騰處理器開發代碼為Montecito，採用雙核心設計，擁有最少18MB片內緩存，採取90nm工藝製造，它的設計絕對稱得上是對當今晶元業的挑戰。它的每個單獨的核心都擁有獨立的L1，L2和L3 cache，包含大約10億支晶體管。
十五。SMP
SMP（Symmetric Multi-Processing），對稱多處理結構的簡稱，是指在一個計算機上匯集了一組處理器（多CPU），各CPU之間共享內存子系統以及匯流排結構。在這種技術的支持下，一個伺服器系統可以同時運行多個處理器，並共享內存和其他的主機資源。像雙至強，也就是所說的二路，這是在對稱處理器系統中最常見的一種（至強MP可以支持到四路，AMD Opteron可以支持1-8路）。也有少數是16路的。但是一般來講，SMP結構的機器可擴展性較差，很難做到100個以上多處理器，常規的一般是8個到16個，不過這對於多數的用戶來說已經夠用了。在高性能伺服器和工作站級主板架構中最為常見，像UNIX伺服器可支持最多256個CPU的系統。
構建一套SMP系統的必要條件是：支持SMP的硬體包括主板和CPU；支持SMP的系統平台，再就是支持SMP的應用軟體。為了能夠使得SMP系統發揮高效的性能，操作系統必須支持SMP系統，如WINNT、LINUX、以及UNIX等等32位操作系統。即能夠進行多任務和多線程處理。多任務是指操作系統能夠在同一時間讓不同的CPU完成不同的任務；多線程是指操作系統能夠使得不同的CPU並行的完成同一個任務。
要組建SMP系統，對所選的CPU有很高的要求，首先、CPU內部必須內置APIC（Advanced Programmable Interrupt Controllers）單元。Intel 多處理規范的核心就是高級可編程中斷控制器（Advanced Programmable Interrupt Controllers–APICs）的使用；再次，相同的產品型號，同樣類型的CPU核心，完全相同的運行頻率；最後，盡可能保持相同的產品序列編號，因為兩個生產批次的CPU作為雙處理器運行的時候，有可能會發生一顆CPU負擔過高，而另一顆負擔很少的情況，無法發揮最大性能，更糟糕的是可能導致死機。
十六。NUMA技術
NUMA即非一致訪問分布共享存儲技術，它是由若干通過高速專用網路連接起來的獨立節點構成的系統，各個節點可以是單個的CPU或是SMP系統。在NUMA中，Cache 的一致性有多種解決方案，需要操作系統和特殊軟體的支持。圖2中是Sequent公司NUMA系統的例子。這里有3個SMP模塊用高速專用網路聯起來，組成一個節點，每個節點可以有12個CPU。像Sequent的系統最多可以達到64個CPU甚至256個CPU。顯然，這是在SMP的基礎上，再用NUMA的技術加以擴展，是這兩種技術的結合。

E. 《R並行編程實戰》epub下載在線閱讀全文，求百度網盤雲資源

《R並行編程實戰》（（美）西蒙 R.查普爾（Simon R.Chapple））電子書網盤下載免費在線閱讀

鏈接：https://pan..com/s/1RLlporkNQEi-3P14d5n5tw

提取碼：JERB

書名:R並行編程實戰

作者:（美）西蒙 R.查普爾（Simon R.Chapple）

出版社:機械工業出版社

出版時間:2017年11月

內容簡介

本書是一本構建大規模高效演算法的綜合性實用書籍，介紹各種並行技術，從R語言的並行版本lapply()的簡單應用到基於Hadoop和ApacheSpark框架的高級AWS雲。在本書的後，你將了解到影響並行效率的因素，包括：評估代碼性能和實現負載平衡；要避免的陷阱，包括死鎖和數值不穩定問題；對於你的項目，如何為適合的並行類型構建代碼和數據；如何在各種計算機系統中運行R代碼獲取佳性能。本書針對那些想要超越單線程和內存限制的R程序員，使其從中學習如何實現高效大規模演算法，這是對大數據高性能處理的必要條件。

作者簡介

About the Authors 關於作者西蒙R. 查普爾（Simon R. Chapple）是一位經驗豐富的解決方案架構師和首席軟體工程師，從事數據分析和醫療信息系統解決方案和應用的開發超過25年。他也是超級計算機HPC和大數據處理方面的專家。
Simon是Datalytics科技有限公司的首席技術官和管理合夥人，帶領一個團隊建設下一代大規模數據分析平台，該平台建立在一組由高性能工具、框架和系統所構成的可定製的工具集合基礎上，可以使從數據採集、分析到呈現的整個實時處理周期，輕松地部署到任何已有的IT操作環境中。
此前，他在Aridhia信息公司擔任產品創新總監，為蘇格蘭的醫療服務供應商建立了多個新系統，包括為蘇格蘭18周轉診治療和癌症患者的管理而提供的一體化病人路徑跟蹤系統，該系統應用了10個單獨數據系統的集成（減少病人等待時間，從而提供好的服務）。他還利用公共雲託管監測系統，為實時化療患者建立了專門的移動系統，該系統在澳大利亞進行了臨床試驗，受到護士和病人的高度贊揚，「就像在你的起居室里有一位護士……希望所有的化療病人每天都有天使般的安全舒適的護理環境。」
Simon也是ROpenCL開源軟體包的作者之一，該添加包使得用R編寫的統計程序可以應用圖形加速器晶元中的並行計算能力。

F. ProcessPoolExecutor並行編程

你有個程序要執行CPU密集型工作，你想讓他利用多核CPU的優勢來運行的快一點。

concurrent.futures 庫提供了一個 ProcessPoolExecutor 類，可被用來在一個單獨的Python解釋器中執行計算密集型函數。不過，要使用它，你首先要有一些計算密集型的任務。我們通過一個簡單而實際的例子來演示它。假定你有個Apache web伺服器日誌目錄的gzip壓縮包：

進一步假設每個日誌文件內容類似下面這樣：

下面是一個腳本，在這些日誌文件中查找出所有訪問過robots.txt文件的主機：

前面的程序使用了通常的map-rece風格來編寫。函數 find_robots() 在一個文件名集合上做map操作，並將結果匯總為一個單獨的結果，也就是 find_all_robots() 函數中的 all_robots 集合。現在，假設你想要修改這個程序讓它使用多核CPU。很簡單——只需要將map()操作替換為一個 concurrent.futures 庫中生成的類似操作即可。下面是一個簡單修改版本：

通過這個修改後，運行這個腳本產生同樣的結果，但是在四核機器上面比之前快了3.5倍。實際的性能優化效果根據你的機器CPU數量的不同而不同。

ProcessPoolExecutor 的典型用法如下：

其原理是，一個 ProcessPoolExecutor 創建N個獨立的Python解釋器， N是系統上面可用CPU的個數。你可以通過提供可選參數給 ProcessPoolExecutor(N) 來修改處理器數量。這個處理池會一直運行到with塊中最後一個語句執行完成，然後處理池被關閉。不過，程序會一直等待直到所有提交的工作被處理完成。

被提交到池中的工作必須被定義為一個函數。有兩種方法去提交。如果你想讓一個列表推導或一個 map() 操作並行執行的話，可使用 pool.map() :

另外，你可以使用 pool.submit() 來手動的提交單個任務：

如果你手動提交一個任務，結果是一個 Future 實例。要獲取最終結果，你需要調用它的 result() 方法。它會阻塞進程直到結果被返回來。

如果不想阻塞，你還可以使用一個回調函數，例如：

回調函數接受一個 Future 實例，被用來獲取最終的結果（比如通過調用它的result()方法）。盡管處理池很容易使用，在設計大程序的時候還是有很多需要注意的地方，如下幾點：

一旦啟動你不能控制子進程的任何行為，因此最好保持簡單和純潔——函數不要去修改環境。

它會克隆Python解釋器，包括fork時的所有程序狀態。而在Windows上，克隆解釋器時不會克隆狀態。實際的fork操作會在第一次調用 pool.map() 或 pool.submit() 後發生。

你應該在創建任何線程之前先創建並激活進程池（比如在程序啟動的main線程中創建進程池）。

G. 大數據和人工智慧的聯系與區別是什麼

了解大數據與人工智慧的區別與聯系，首先我們從認知和理解大數據和人工智慧的概念開始。

1、大數據

大數據是物聯網、Web系統和信息系統發展的綜合結果，其中物聯網的影響最大，所以大數據也可以說是物聯網發展的必然結果。大數據相關的技術緊緊圍繞數據展開，包括數據的採集、整理、傳輸、存儲、安全、分析、呈現和應用等等。目前，大數據的價值主要體現在分析和應用上，比如大數據場景分析等。

2、人工智慧

人工智慧是典型的交叉學科，研究的內容集中在機器學習、自然語言處理、計算機視覺、機器人學、自動推理和知識表示等六大方向，目前機器學習的應用范圍還是比較廣泛的，比如自動駕駛、智慧醫療等領域都有廣泛的應用。人工智慧的核心在於「思考」和「決策」，如何進行合理的思考和合理的行動是目前人工智慧研究的主流方向。

3、大數據與人工智慧

大數據和人工智慧雖然關注點並不相同，但是卻有密切的聯系，一方面人工智慧需要大量的數據作為「思考」和「決策」的基礎，另一方面大數據也需要人工智慧技術進行數據價值化操作，比如機器學習就是數據分析的常用方式。在大數據價值的兩個主要體現當中，數據應用的主要渠道之一就是智能體（人工智慧產品），為智能體提供的數據量越大，智能體運行的效果就會越好，因為智能體通常需要大量的數據進行「訓練」和「驗證」，從而保障運行的可靠性和穩定性。

目前大數據相關技術已經趨於成熟，相關的理論體系已經逐步完善，而人工智慧尚處在行業發展的初期，理論體系依然有巨大的發展空間。從學習的角度來說，如果從大數據開始學習是個不錯的選擇，從大數據過渡到人工智慧也會相對比較容易。總的來說，兩個技術之間並不存在孰優孰劣的問題，發展空間都非常大。

H. 畢業設計我想闡述一下並行計算的發展

從20世紀40年代開始的現代計算機發展歷程可以分為兩個明顯的發展時代：串列計算時代、並行計算時代。每一個計算時代都從體系結構發展開始，接著是系統軟體（特別是編譯器與操作系統）、應用軟體，最後隨著問題求解環境的發展而達到頂峰。

並行計算機是由一組處理單元組成的。這組處理單元通過相互之間的通信與協作，以更快的速度共同完成一項大規模的計算任務。因此，並行計算機的兩個最主要的組成部分是計算節點和節點間的通信與協作機制。並行計算機體系結構的發展也主要體現在計算節點性能的提高以及節點間通信技術的改進兩方面。

節點性能不斷進步

20世紀60年代初期，由於晶體管以及磁芯存儲器的出現，處理單元變得越來越小，存儲器也更加小巧和廉價。這些技術發展的結果導致了並行計算機的出現。這一時期的並行計算機多是規模不大的共享存儲多處理器系統，即所謂大型主機。IBM 360是這一時期的典型代表。

到了20世紀60年代末期，同一個處理器開始設置多個功能相同的功能單元，流水線技術也出現了。與單純提高時鍾頻率相比，這些並行特性在處理器內部的應用大大提高了並行計算機系統的性能。伊利諾依大學和Burroughs公司此時開始實施Illiac Ⅳ計劃，研製一台64顆CPU的SIMD主機系統，它涉及到硬體技術、體系結構、I/O設備、操作系統、程序設計語言直至應用程序在內的眾多研究課題。不過，當一台規模大大縮小的原型系統（僅使用了16顆CPU）終於在1975年面世時，整個計算機界已經發生了巨大變化。

首先是存儲系統概念的革新，提出虛擬存儲和緩存的思想。以IBM 360/85和IBM 360/91為例，兩者是屬於同一系列的兩個機型，IBM 360/91的主頻高於IBM 360/85，所選用的內存速度也較快，並且採用了動態調度的指令流水線。但是，IBM 360/85的整體性能卻高於IBM 360/91，惟一的原因就是前者採用了緩存技術，而後者則沒有。

其次是半導體存儲器開始代替磁芯存儲器。最初，半導體存儲器只是在某些機器中被用作緩存，而CDC7600則率先全面採用這種體積更小、速度更快、可以直接定址的半導體存儲器，磁芯存儲器從此退出了歷史舞台。與此同時，集成電路也出現了，並迅速應用到計算機中。元器件技術的這兩大革命性突破，使得Illiac Ⅳ的設計者們在底層硬體以及並行體系結構方面提出的種種改進都大為遜色。

處理器高速發展

1976年Cray-1問世以後，向量計算機從此牢牢地控制著整個高性能計算機市場15年。Cray-1對所使用的邏輯電路進行了精心的設計，採用了我們如今稱為RISC的精簡指令集，還引入了向量寄存器，以完成向量運算。這一系列技術手段的使用，使Cray-1的主頻達到了80MHz。

微處理器隨著機器的字長從4位、8位、16位一直增加到32位，其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力，卡內基·梅隆大學開始在當時流行的DEC PDP-11小型計算機的基礎上研製一台由16台PDP-11/40處理機通過交叉開關與16個共享存儲器模塊相連接而成的共享存儲多處理器系統C.mmp。

從20世紀80年代開始，微處理器技術一直在高速前進。稍後又出現了非常適合於SMP方式的匯流排協議。而伯克利加州大學則對匯流排協議進行了擴展，提出了Cache一致性問題的處理方案。從此，C.mmp開創出的共享存儲多處理器之路越走越寬。現在，這種體系結構已經基本上統治了伺服器和桌面工作站市場。

通信機制穩步前進

同一時期，基於消息傳遞機制的並行計算機也開始不斷涌現。20世紀80年代中期，加州理工學院成功地將64個i8086/i8087處理器通過超立方體互連結構連結起來。此後，便先後出現了Intel iPSC系列、INMOS Transputer系列，Intel Paragon以及IBM SP的前身Vulcan等基於消息傳遞機制的並行計算機。

20世紀80年代末到90年代初，共享存儲器方式的大規模並行計算機又獲得了新的發展。IBM將大量早期RISC微處理器通過蝶形互連網路連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時，使系統具有一定的可擴展性。20世紀90年代初期，斯坦福大學提出了DASH計劃，它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分布式共享存儲器的緩存一致性。後來，IEEE在此基礎上提出了緩存一致性協議的標准。

20世紀90年代至今，主要的幾種體系結構開始走向融合。

屬於數據並行類型的CM-5除大量採用商品化的微處理器以外，也允許用戶層的程序傳遞一些簡單的消息。

Cray T3D是一台NUMA結構的共享存儲型並行計算機，但是它也提供了全局同步機制、消息隊列機制，並採取了一些減少消息傳遞延遲的技術。

隨著微處理器商品化、網路設備的發展以及MPI/PVM等並行編程標準的發布，集群架構的並行計算機出現開始。IBM SP2系列集群系統就是其中的典型代表。在這些系統中，各個節點採用的都是標準的商品化計算機，它們之間通過高速網路連接起來。
1.2 有限元並行計算的發展和現狀
目前，在計算力學領域內，圍繞著基於變分原理的有限元法
和基於邊界積分方程的邊界元法，以及基於現在問世的各種並行
計算機，逐漸形成了一個新的學科分支——有限元並行計算。它
是高效能的，使得許多現在應用串列計算機和串列演算法不能解決
或求解不好的大型的、復雜的力學問題能得到滿意的解答，故其
發展速度十分驚人。在國際上已經掀起了利用並行機進行工程分
析和研究的高潮。從1975到1995年的二十年間，有關有限元方法
和相應的數值並行計算的文章已發表1000餘篇。
有限元並行計算正在向兩個方向發展。一是對系統方程組實
施並行求解的各種演算法。二是並行分析方法，包括有限元並行算
法和邊界元並行演算法，前者趨向成熟，而後者的研究較少。對這
一方面的研究，是為了挖掘有限元計算自身潛在的並行性，是有
限元並行計算的根本問題。
1.2.1國內
並行演算法的設計和有效實現強烈地依賴於並行機的硬軟體環
境。國內僅極少數單位擁有並行機，且機型雜亂，因此研究人員
少，起步晚，而且局限於特定的硬體環境。從有限元分析方法的
內容來看，發表的幾十篇研究論文（報告）還未顯示出較強的系
統性。
1）南京航空航天大學周樹荃教授等在YH-1向量機上實現了剛度
矩陣計算、對稱帶狀矩陣的Cholesky分解和線性方程組的求解等
並行處理。針對不規則結構工程分析問題，他們還採用了變帶寬
存貯方法，並實現了剛度矩陣的並行計算以及求解變帶寬稀疏線
性方程組的並行直接解法【20】。
2）中國科學院計算中心王藎賢研究員等在基於Transputer晶元
的分布式MIMD系統上，提出了有限元分析中變帶寬線性方程組的
並行直接解法，初步完成了一個靜力分析程序【21】。
3）重慶大學張汝清教授等藉助於ELXSI-6400共享存貯器型MIMD
系統，先後開展了范圍比較廣泛的並行演算法研究，主要成果有：
a)提出了靜力分析中子結構解法的並行演算法，以及動力分析中模
態綜合子結構法的並行演算法；
b)從波前法出發，發展了多波前並行演算法以求解大型結構分析
問題；
c)從Jacobi塊迭代法和加權殘差法出發，導出了基於非同步控制的
有限元方程並行解法和有限元並行迭代的基本格式；
d)利用圖論中的著色理論，實現了剛度矩陣的並行計算；
e)實現了基於有色線剖分的SOR並行迭代解法；
f)實現了子空間迭代法、Lanczos法以及利用多項式割線迭代法
和矢量迭代法求解結構固有頻率和模態的並行演算法；
g)針對彈塑性分析，提出了一種多波前子結構並行演算法；
h)針對彈性接觸問題，提出了一種基於參數變分原理的並行解法；
i)實現了一步積分法的並行處理【22】。
4）南京航空航天大學喬新教授等藉助於Transputer晶元的分布式
MIMD系統實現了有限元方程組的並行直接解法，並提出了基於子結
構的預處理共軛梯度法的並行計算方法【23】。
此外，浙江大學姚堅【24】、中國科學院西南計算中心馬寅國、
東北工學院張鐵以及國防科技大學六系也曾對有限元分析的並行計
算開展了一些研究。
上述研究結果表明，國內並行計算方法的研究，在硬體上基於
向量機、分布式並行機和共享存貯式並行機；在內容上，似乎面很
廣，但系統性和深度還很不夠，軟體開發距實際應用和商品化還有
很大距離，對不依賴並行機具體環境的通用並行演算法研究還很少，
同樣對旨在進行結構有限元分析的並行計算的硬體研究也很少。
1.2.2國外
自從美國國家宇航局（NASA）的A.K.Noor於1975年發表第一篇
有限元並行計算的文章以來，有限元並行處理技術幾乎與並行計算
機同步發展。距不完全統計，到1992年，國外已發表了400餘篇這方
面的論文，其中後5年的文章篇數是前12年的總和。在研究內容上也
由過去的演算法研究發展到了演算法、軟體和硬體相結合的研究，並針對
一些機型開發了一些實用的大型結構分析軟體。
1）有限元機器FEM【25】（Finite Element Machine）。早在70年
代末，就有人發表了有關FEM的論文，1982年美國國家宇航局Langley
研究中心的O.O.Storaasli等撰文詳細地介紹了該中心設計的供研究
用的FEM。該機器由1個處理器陣列、1台作為控制器的微機和1個並行
操作系統及一些模塊化了的通用並行演算法程序組成，用戶使用系統的
文本編輯器和控制器的其它特殊功能，能建立有限元計算模型並進行
分析。10多年來，又有一些人在這一方面進行了不懈的努力，但FEM
的發展前景仍然不太令人樂觀。
2）心動陣列並行機【26】。心動陣列並行機主要應用於信號和圖象
的並行處理，但由於其高效的矩陣計算功能，近年來有人把它應用於
有限元分析，並作了一些有益的嘗試。
3）巨型向量機【27】。在有限元分析中越來越顯示出巨大的威力，
處於領先的是美國思維公司的CM-2。許多結構分析家把這個具有65536
個處理器的巨型向量機應用於有限元計算，如T.Belyschko等人採用顯
式方法，完成了具有32768個單元的殼的非線性有限元計算，並行效率
極高，速度幾乎比CRAY X-MP/14並行機高出1個數量級。
4）並行機網路和工作站網路【28】。日本東京大學矢川等藉助高速網
絡把3台CRAY Y-MP機聯成網路進行有限元分析，有限元方程求解採用
的是基於區域分裂技術的共軛梯度法（CGM），在求解三維彈性問題
時自由度個數超過了100萬，系統平均運行速度高達1.74GFLOPS。另外，
他們還基於一個工程工作站網路，在並行環境下進行了類似的研究，
求解問題的自由度數高達20萬個。
--
我左看右看前看後看可還是看不過來
這個....那個....我越看越奇怪....
不是我不明白，這世界變化快

I. 超級並行計算機有哪些優勢

在並行計算機上應用，必須採用合適的並行演算法。演算法的並行性直接影響著計算機的使用效率和實際的解題速度。《科技日報》1991年1月4日評出「1990年世界十大科技成就」，其中第六項稱：「美國6月20日宣布用1000台計算機（組成超級並行計算機系統——筆者注）成功地將一個155位的大數分解為三個因子的乘積，它們分別是7位、49位與99位數，主持這項工作的美國貝爾實驗室認為這是計算數學領域的一大突破。」因為採用了1990年英國科學家波拉德等人發明的並行計算新方法，計算機只運行了幾個月就完成了大數因子分解，若用老方法在每秒10億次計算機上要算1059年。

科學技術與社會的發展需要更高速、更大容量的並行計算機。例如，為了使天氣預報更為准確，就需要增加空間的分點和新的物理參量，而各個方向的分點數僅增加一倍都會使目前最快的計算機不能在一天內完成工作。另外，圖像和聲音的引入也使計算機對速度和容量的要求更高。隨著大規模並行處理技術的不斷發展與成熟、突破，TFLops速度大關的超級計算機已指日可待，並必將在遠距離協作、大規模數據共享和多媒體支持方面獲得成功，使計算機真正做到「瞬時間」的「眼觀六路，耳聽八方」。

（1）流水線技術：像工業生產中的流水線作業一樣，它改進了計算機運算和控制部件的性能。

（2）功能結構：應用各自獨立的部件，執行不同的功能，並允許它們同時處理各種數據。採用流水線與功能結構技術的計算機稱為向量計算機。

（3）陣列結構：提供由很多相同功能處理部件組成的陣列，在統一控制下它們同時執行相同的操作，但操作的對象（數據）各不相同。這樣的並行計算機稱為單指令流多數據流。

（4）多處理器結構：提供多台處理機，它們可同時執行各自的操作並相互通信。這種並行計算機稱為多指令流多數據流。

（5）大規模並行處理（MPP）技術：通過高速網路通信，在專門的管理機制下使多台計算機同時工作來完成同一個任務。

導航:首頁 > 編程語言 > 大規模並行處理器編程實戰

大規模並行處理器編程實戰

與大規模並行處理器編程實戰相關的資料