❶ cpu與gpu分別適應哪些不同類型的渲染
關於GPU的並行計算,我們從三點進行簡單的闡述。
一:什麼是GPU
很久以前,大概2000年那時候,顯卡還被叫做圖形加速卡。一般叫做加速卡的都不是什麼核心組件,和現在蘋果使用的M7協處理器地位差不多。這種東西就是有了更好,沒有也不是不行,只要有個基本的圖形輸出就可以接顯示器了。在那之前,只有一些高端工作站和家用 游戲 機上才能見到這種單獨的圖形處理器。
後來隨著PC的普及, 游戲 的發展和Windows這樣的市場霸主出現,簡化了圖形硬體廠商的工作量,圖形處則汪理器,或者說顯卡才逐漸普及起來。
GPU有非常多的廠商都生產,和CPU一樣,生產的廠商比較多,但大家熟悉的卻只有3個,以至於大家以為GPU只有AMD、NVIDIA、Intel3個生產廠商。
nVidia GPU
AMD GPU
Intel MIC協處理器
nVidia Tegra 4
AMD ARM伺服器
CUDA C/C++
CUDA fortran
OpenCL
MIC OpenMP
CUDA
二:GPU與CPU的區別
想要理解GPU與CPU的區別,需要先明白GPU被設計用來做什麼。現代的GPU功能涵蓋了圖形顯示的方方面面,我們只取一個最簡單的方向作為例子。
大家可能都見過上面這張圖,這是老版本Direct X帶的一項測試,就是一個旋轉的立方體。顯示出一個這樣的立方體要經過好多步驟,我們先考慮簡單的,想像一下他是個線框,沒有側面的「X」圖像。再簡化一點,連線都沒有,就是八個點(立方體有八個頂點的)。那麼問題就簡化成如何讓這八個點轉起來。
首先,你在創造這個立方體的時候,肯定有八個頂點的坐標,坐標都是用向量表示的,因而至少也是個三維向量。然後「旋轉」這個變換,在線性代數裡面是用一個矩陣來表示的。向量旋轉,是用向量乘以這個矩陣。把這八個點轉一下,就是進行八次向量與矩陣的乘法而已。
這種計算並不復雜,拆開來看無非就是幾次乘積加一起,就是計算量比較大。八個點就要算八次,2000個點就要算2000次。這就是GPU工作的一部分,頂點變換,這也是最簡單的一部分。剩下還有一大堆比這更麻煩的就不說了。
總而言之,CPU和絕稿GPU因為最初用來處理的任務就不同,所以設計上有不小的區別。它們分別針對了兩種不同的應用場景。CPU需要很強的通用性來處理各種不同的數據類型,同時又要邏輯判斷又會引入大量的分支跳轉和中斷的處理。這些都使得CPU的內部結構異常復雜。而GPU面對的則是類型高度統一的、相互無依賴的大規模數據和不需要被打斷的純凈的計算環境。
於是CPU和GPU就呈現出非常不同的架構(示意圖):
CPU與GPU區別大揭秘
GPU採用了數量眾多的計算單元和超長的流水線,但只有非常簡單的控制邏輯並省去了Cache。而CPU不僅被Cache占據了大量空間,而且還有有復雜的控制邏輯和諸多優化電路,相比之下計算能力只是CPU很小的一部分。
而GPU的工作大部分就是這樣,計算量大,但沒什麼技術含量,而且要重復很多孫宏仔很多次。就像你有個工作需要算幾億次一百以內加減乘除一樣,最好的辦法就是雇上幾十個小學生一起算,一人算一部分,反正這些計算也沒什麼技術含量,純粹體力活而已。
而CPU就像老教授,積分微分都會算,就是工資高,一個老教授資頂二十個小學生,你要是富士康你雇哪個?GPU就是這樣,用很多簡單的計算單元去完成大量的計算任務,純粹的人海戰術。這種策略基於一個前提,就是小學生A和小學生B的工作沒有什麼依賴性,是互相獨立的。
很多涉及到大量計算的問題基本都有這種特性,比如你說的破解密碼,挖礦和很多圖形學的計算。這些計算可以分解為多個相同的簡單小任務,每個任務就可以分給一個小學生去做。
但還有一些任務涉及到「流」的問題。比如你去相親,雙方看著順眼才能繼續發展。總不能你這邊還沒見面呢,那邊找人把證都給領了。這種比較復雜的問題都是CPU來做的。
而某些任務和GPU最初用來解決的問題比較相似,所以用GPU來算了。GPU的運算速度取決於雇了多少小學生,CPU的運算速度取決於請了多麼厲害的教授。教授處理復雜任務的能力是碾壓小學生的,但是對於沒那麼復雜的任務,還是頂不住人多。當然現在的GPU也能做一些稍微復雜的工作了,相當於升級成初中生高中生的水平。但還需要CPU來把數據喂到嘴邊才能開始幹活,究竟還是靠CPU來管的。
三:並行計算
首先我們說一下並行計算的概念,它是一種類型的計算,它的許多計算或執行過程是同時進行的。將大問題可以分成較小的問題,然後可以同時解決。可以同CPU或主機進行協同處理,擁有自己的內存,甚至可以同時開啟1000個線程。
採用GPU進行計算時與CPU主要進行以下交互:
先說明一下,一般來說同一時刻一個CPU或GPU計算核心上(就是我們通常所說的「核」)只能夠進行一個運算,在超線程技術中,一個計算核心在同一時刻可能進行多個計算(比如對於雙核四線程的CPU,在不發生資源沖突的情況下,每個計算核心可能同時進行兩個計算),但超線程通常只是使邏輯計算核心翻倍。
我們平時看到自己使用的CPU可以同時運行幾十個程序,實際上,從微觀角度來說,這幾十個程序在一定程度上仍然是串列的,比如在四核四線程CPU上,同一時刻只能夠進行4個運算,這幾十個程序便只能在四個計算核心上輪換執行,只是由於切換速度很快,在宏觀上表現出的就是這些程序在「同時」運行。
GPU最突出的特點就是:計算核心多。
CPU的計算核心一般只有四個、八個,一般不超過兩位數,而用於科學計算的GPU的計算核心可能上千個。正由於計算核心數量的巨大優勢,GPU在同一時刻能夠進行的計算的數量遠遠地把CPU比了下去。
這時候,對於那些可以並行進行的計算,利用GPU的優勢就能夠極大地提高效率。這里解釋一下任務的串列計算和並行計算。串列計算通俗來說就是先計算完一個之後再計算下一個,並行計算則是同時並行的計算若干個。比如計算實數a與向量B=[1 2 3 4]的乘積,串列計算就是先計算a*B[1],再計算a*B[2],然後計算a*B[3],最後計算a*B[4],從而得到a*B的結果,並行計算就是同時計算a*B[1]、a*B[2]、a*B[3]和a*B[4],得到a*B的結果。
如果只有一個計算核心,四個計算任務是不可能並行執行的,只能夠一個一個地串列計算,但如果有四個計算核心,則可以把四個獨立的計算任務分到四個核上並行執行,這便是並行計算的優勢所在。正因如此,GPU的計算核心多,能夠進行並行計算的規模便非常大,對於一些能夠通過並行計算解決的計算問題便表現出了優於CPU的性能。
比如破譯密碼,將任務分解成可以獨立執行的若干份,每一份分配在一個GPU核心上,便可以同時執行多份破譯任務,從而加快破譯速度。
但並行計算不是萬能的,它需要一個前提:問題可以分解為能夠並行執行的若干個部分。很多問題不滿足這個條件,比如一個問題有兩步,而第二步的計算依賴於第一步的結果,此時,這兩部分便不能並行的執行,只能夠串列地依次執行。實際上,我們平時的計算任務常常有復雜的依賴關系,很多重要的計算任務並不能夠並行化。這是GPU的一個劣勢。
關於GPU編程方面主要有以下方法:
由於不是編程科班出身,這里就不多加介紹了,有興趣的朋友可以自行找資料。關於GPU的並行計算,就說這么多,有更深了解的朋友歡迎來溝通。
❷ 在win7系統下,華為青春手機採用Android studio2.3.3,ndk怎麼對arm mali T830 GPU進行opencl編程
Mali T830支持OpenCL1.1和1.2。OpenCL是Khronos組織提供的標准,在Khronos官網可以找到OpenCL的規范和旁孝文檔資料。通過這些運讓稿文檔可以開發OpenCL的應用。如果要針對Mali做OpenCL的進一步的優化,可能需要對Mali GPU有一定的了解,有些信息不是對外開放的,建議可以通過華為技術支持得到進一步的技術支持滑旁。
❸ GPU發展和現狀是什麼樣的
全球GPU晶元行業發展歷程
在1984年之前,GPU原本只是用於圖形和圖像的相關運算,受CPU的調配,但隨著雲計算、AI等技術的發展,GPU並行計算的優勢被發掘,在高性能計算領域逐漸取代CPU成為主角。1999年,NVIDIA公司在發布其標志性產品GeForce256時,首次提出了GPU的概念。2006年,NVIDIA發布了第一款採用統一渲染架構的桌面GPU和CUDA通用計算平台,使開發者能夠使用NVIDIAGPU的運算能力進行並行計算,拓展了GPU的應用領域。2011年,NVIDIA發布TESLAGPU計算卡,正式將用於計算的GPU產品線獨立出來,標志著GPU晶元正式進入高性能計算時代。
—— 更絕仔州多本行業研究分析詳見前瞻產業研究院《中國GPU晶元行業市場前瞻與投資戰略規劃分析報告》