指數級演算法cpu_如何用硬體加速技術為CPU減負

⑴ 如何用硬體加速技術為CPU減負

如何用硬體加速技術為CPU減負

一、背景介紹

通用處理器（CPU）的摩爾定律已入暮年，而機器學習和Web服務的規模卻在指數級增長。伴隨著當今硬體技術的成熟發展，普通CPU無論是在計算能力，還是資源成本上相對於一些專用硬體已經沒有絕對優勢，這也促使硬體加速技術得到各大公司的青睞，譬如三大互聯網巨頭網路、阿里、騰訊內部的接入層採用類似KeyLess方案來加速HTTPS的卸載，不僅提高了用戶體驗，還節省了機器成本。根據當前調研結果發現：目前業內各大公司接入層針對於Gzip採用硬體加速還是一片空白，阿里接入層首次結合硬體加速技術卸載Gzip不僅帶來了性能提升，而且對業界在此領域的發展也有重大影響意義。

接入層Tengine當前性能瓶頸是CPU，譬如Gzip模塊在Tengine中CPU佔比高達15%-20%左右，相比於其它模塊CPU消耗高、佔比呈增長趨勢（後端應用壓縮邏輯後續統一前置接入層）、且集中，所以Gzip模塊使用硬體卸載對於性能提升、成本優化是不可或缺。

二、分析與調研

分析前先簡單介紹下什麼是硬體加速：硬體加速（HardwareAcceleration）就是利用硬體模塊來替代軟體演算法以充分利用硬體所固有的快速特性（硬體加速通常比軟體演算法的效率要高），從而達到性能提升、成本優化目的，當前主要是如下兩大加速方式：

FPGA 現場可編程門陣列，可針對某個具體的軟體演算法進行定製化編程，譬如業內的智能網卡；

ASIC 專用集成電路，它是面向專門用途的電路、專門為一個用戶設計和製造的，譬如Intel的QAT卡僅支持特定加減密、壓縮演算法；

FPGA與ASIC的對比如下表格所示：

結論

綜上數據對比，當qps為10k左右時Tengine Gzip使用QAT加速後CPU節省15%左右，且Gzip基本上完全卸載、隨著其佔比變高，優化效果將越好。

五、總結

接入層Tengine Gzip硬體加速項目是阿里存儲技術Tair&Tengine團隊及伺服器研發計算團隊與英特爾數據中心網路平台團隊齊心協力下的產物，不僅帶來了性能提升，而且使得接入層在硬體加速領域再次打下了堅實的基礎、為明年SSL+Gzip架構上整合做好了沉澱，同時也填充了業內接入層對Gzip採用硬體加速的空白，對此領域的發展具有一定的影響意義

⑵ 二叉搜索樹和最優二叉搜索樹的時間復雜度各是多少

二叉查找樹（BST，Binary Search Tree），又名二叉搜索樹或二叉檢索樹，是一顆滿足如下條件的樹：
1、每個節點包含一個鍵值
2、每個節點有最多兩個孩子
3、對於任意兩個節點x和y，它們滿足下述搜索性質:
a、如果y在x的左子樹里，則key[y] <= key[x]
b、如果y在x的右子樹里，則key[y] >= key[x]

最優二叉查找樹（Optimal BST，Optimal Binary Search Tree）
最優二叉查找樹是使查找各節點平均代價最低的二叉查找樹。具體來說就是：給定鍵值序列 K = <k1 , k2 , . . . , kn >，k1 < k2 <· · · < kn ，其中鍵值ki ,被查找的概率為pi ，要求以這些鍵值構建一顆二叉查找樹T，使得查找的期望代價最低（查找代價為檢查的節點數）。
下面是對於查找期望代價的解釋：
對於鍵值ki , 如果其在構造的二叉查找樹里的深度（離開樹根的分支數）為depthT(ki )，則搜索該鍵值的代價= depthT(ki ) +1（需要加上深度為0的樹根節點）。由於每個鍵值被查找的概率分別為pi ，i=1,2,3…,n。所以查找期望代價為：
E[T的查找代價] = ∑i=1~n (depthT(ki ) +1) · pi
時間復雜度
1、窮舉
窮舉構造最優二叉查找樹，其實就是這樣的一個問題：
給一個擁有n個數的已排序的節點，可以將其構造成多少種不同的BST（用來找到一個最優的二叉查找樹）？
設可以構造成T(n)個，那麼枚舉每一個元素作為根節點的情況，當第一個元素作為根節點時，其餘n-1個構成右子樹，無左子樹，是n-1情況時的子問題，共T(n-1)種；當第二個元素作為根節點時，左子樹有1個元素，右子樹有n-2個元素，根據乘法原理共有T(1)T(n-2)種情況……依此類推得到：T(n) = T(0)T(n-1) + T(1)T(n-2) + T(2)T(n-3) + ...... + T(n-2)T(1) + T(n-1)T(0)；此外，有T(0)=T(1)=1。
下面來求解T(n)：
定義函數 f(x) = T(0) + T(1) · x + T(2) · x2 + ......
那麼有：
f(x)2 = (T(0)2 ) + (T(0)T(1) + T(1)T(0)) · x + (T(0)T(2) + T(1)T(1) + T(2)T(0)) · x2 + ......
= T(1) + T(2) · x + T(3) · x2 + ......
= (f(x) - T(0)) / x
= (f(x) - 1) / x
這樣解方程得到 f(x) = [1 - (1 - 4x)1/2 ] / 2x
右邊進行泰勒展開，再與定義式比較最終得到： T(n) = (2n)! / (n!(n+1)!)
然後根據Stirling公式：n! ～ (2πn)1/2 · (n/e)n
於是有(2n)! / n!(n+1)! ～ (4n1/2 · 2n2n ) / (2n1/2 · nn · (2(n+1))1/2 · (n+1)n )
～ 4n · (n+1)-3/2 · (n/(n+1))n
～ 4n · n-3/2
因此最後得到窮舉方法構造最優二叉查找樹的時間復雜度： T(n) = O(4n · n-3/2 )

2、遞歸
實際上左右子樹是互不影響的，不需要窮舉所有左右子樹的組合，所以不需要用乘法原理，加法原理就可以了，這樣式子變為：
T(n) = T(0) + T(n-1) + T(1) + T(n-2) + T(2) + T(n-3) + ...... + T(n-2) + T(1) + T(n-1) + T(0)
= 2(T(0) + T(1) + T(2) + ...... + T(n-1))
= 3T(n-1)
所以得到T(n) = O(3n ) ，還是指數級的一個演算法

3、動態規劃
上面得到指數級演算法的原因在於，計算了很多重復的子樹情況，一些子樹的查找代價被計算了很多遍；而一棵樹如果是最優二叉搜索樹，那麼要麼它是空樹，要麼它的左、右子樹也是最優二叉搜索樹，因此只需要將子樹的查找代價記錄下來，採用記憶化搜索或者是自底向上的動態規劃的方法，雖然需要消耗一定的空間，但可以把時間復雜度從指數級降到多項式級，這些空間消耗也是可以接受的。
以下是採用自底向上的解法：
輸入：鍵值序列 K = <k1 , k2 , . . . , kn >，概率序列 P = <p1 , p2 , . . . , pn >
輸出：兩個二維數組，Price[i][j]表示ki 到kj 構成的最優子樹的查找代價，Root[i][j]表示表示ki 到kj 構成的最優子樹的根節點位置（用於重構最優二叉查找樹）
演算法1 ：
For 子樹大小size = 1 to n
For 子樹的起點start = 1 to (n - size + 1) //這樣子樹的終點即為 end = start + size - 1，長度為size
For 該子樹的所有節點作為根節點root = start to end
對於每個root，根據之前計算過的Price數組得到左右最優子樹的代價，可直接得到該子樹的代價price為：
左右子樹的最優子樹代價之和 + 所有節點的訪問概率之和（因為所有節點都下降了一層）
在內層循環中找到代價最小的price和root分別記錄在Price[start][end]和Root[start][end]中

下面分析這個演算法的時間復雜度：
由於除了計算出我們最後需要得到的Price和Root二維數組，還產生了部分冗餘的子樹，因此不能簡單的將演算法歸結為O(n2 )的演算法。
對於子樹大小為1時，我們考察了n個子樹；
對於子樹大小為2時，一共產生了(n - 1)個最優子樹，但是在我們的每次考察中，都將子樹的所有節點作為根節點考慮過一次，因此每得到1個大小為2的子樹，我們需要考察2個不同的子樹來找到一個代價最小的，因此最後我們實際上考察了2(n - 1)個子樹；
對於子樹大小為3時，類似的，我們考察了3(n - 2)個子樹；
……
對於子樹大小為n時，我們考察了n個子樹。
最後，我們一共考察了T(n) = n + 2(n - 1) + 3(n - 2) + ...... + n個子樹。
求解這個公式依然可以借用之前的方法，定義函數 f(x) = 1 + 2x + 3x2 + ...... = (1 - x)-2
這樣一來 f(x)2 = T(1) + T(2) · x + T(3) · x2 + ......
再借用泰勒展開得到 T(n) = (n + 2)(n + 1)n/6 = O(n3 )
或者把所有項視為n2，則有 T(n) ≤ n2 + n2 + n2 + n2 + ...... = (n+1)n2 ≤ 2n3
把中間n/2項都視為n/4 · 3n/4的話，則有 T(n) ≥ n/2 · n/4 · 3n/4 = (3/32)n3
根據時間復雜度的定義有 T(n) = O(n3 )

下面介紹一個定理，可以藉此把動態規劃演算法的時間復雜度進一步降到O(n2 )，詳細的證明參見參考文獻：
定理1 ：Root[i][j-1] ≤ Root[i][j] ≤ Root[i+1][j] （Root數組定義見演算法1）

也就是說，演算法1的第3個For就可以不用循環子樹中的所有節點了，只要循環另兩個子樹的根節點之間的范圍就可以了。演算法如下，紅色的為修改的部分：
演算法2 ：
For 子樹大小size = 1 to n
For 子樹的起點start = 1 to (n - size + 1) //這樣子樹的終點即為 end = start + size - 1，長度為size
For 該子樹的所有節點作為根節點root = Root[start][end-1] to Root[start+1][end]
對於每個root，根據之前計算過的Price數組得到左右最優子樹的代價，可直接得到該子樹的代價price為：
左右子樹的最優子樹代價之和 + 所有節點的訪問概率之和（因為所有節點都下降了一層）
在內層循環中找到代價最小的price和root分別記錄在Price[start][end]和Root[start][end]中
在分析該演算法的時間復雜度時應注意，考察的子樹是與考察的內層循環中root數量一一對應的，而當start遞進時，前一個root的終點正好等於後一個root的起點（演算法中的紅色部分），也就是說對於固定的size來說，考察的root的范圍加起來應當首位相接而且至多剛好覆蓋所有節點，因此對於每個size，最多隻考察2n個root（這里縮放了一下），因此總共最多考察了2n · n = 2n2 個子樹；另一方面，Root數組中每一個值對應得到的一個最優二叉查找樹，也即至少需要考察n2 個子樹。因此根據定義得到 T(n) = O(n2 )

⑶ cpu做成一個性能超強的單核不行嗎這種技術可以實現嗎

CPU的的單核性能有多重要，這個不用再重復了，但是CPU的單核性能可以無限增加下去嗎？回答這個問題之前，先說一個小故事吧。很多年前VIA威盛還可以跟英特爾硬剛，那時候是Pentium 4時代，英特爾在CPU頻率不斷突破1GHz、2GHz、3GHz之後要做更高頻率的CPU，放言稱奔4頻率上4GHz，後來就有了英特爾前任CEO巴瑞特下跪的一幕，因為英特爾在奔4時代並沒有如承諾的那樣推出4GHz高頻的產品。

但是很多人不知道的是，4GHz並不是英特爾當時的最終目標，2001年的IDF會議上英特爾曾經表示奔4處理器可以上10GHz頻率。如今18年過去了，這個目標一直都沒實現，（硅基時代）可能永遠都無法實現了。

這件事就能說明CPU頻率不是想提升就提升的，奔4時代過去這么多年了，其實CPU的主流頻率依然在4GHz左右，英特爾雖然在酷睿i7-8086K上首次實現官方5GHz頻率，但絕大多數處理器日常使用的頻率都沒這么高，高負載下頻率在4GHz出頭就不錯了。

制約單核性能超強的CPU出現的第一個問題就是頻率無法大幅提升，而這個因素也跟現在的製程工藝有關，實質上是摩爾定律已經失效了，這個影響了半導體行業50年的金科玉律隨著硅基晶元物理極限的到來已經失效了，從28nm節點之後其實就沒有帶來很大的性能改進了，而且功耗問題也越來越嚴重。

大家都知道理論上製程工藝越先進（製程數字越小），CPU性能會更高，功耗、發熱會更低，但是實際上這個問題很復雜，CPU的功耗可以分為靜態功耗（Static Power）及動態功耗（Dynamic Power），前者主要是漏電流引起的，製程越先進，漏電流又有增加的趨勢，而動態功耗可以用1/2*CV2F這個公式來計算，F頻率越高，動態功耗就越高。

為了上更高的頻率，電壓增加不可避免，但電壓高了功耗也高了，總之靜態功耗、動態功耗的存在就決定了CPU頻率越高，功耗就會極速增加，將會嚴重影響處理器的性能表現，因為要降頻。

說到這一點，英特爾的14nm工藝雖然被人調侃擠牙膏，但從技術上來說真的很牛了，從Skylake架構的第一代14nm到現在Coffee Lake的14nm++工藝，性能提升26%，或者功耗降低52%，在不改變基本結構的情況下這個成績很難得。

製程工藝的放緩導致CPU頻率不可能大幅提升，有很多人會想到那麼有沒有非常牛的CPU架構讓IPC性能大幅提升呢？理論上這種思路是可以的，但是現實很殘酷，CPU架構還是要服從半導體工藝物理定律的，沒有先進的工藝，再好的CPU架構也不可能實現。

此外，即便不考慮工藝對CPU架構的影響，單純說CPU架構的話，不論是X86還是ARM架構，在64位時代CPU單元不外乎就是ALU單元、緩存、I/O等子單元，但是不論提升那部分單元，歸根到底還是要算到晶體管數量上來，還要考慮提升導致的成本——這個成本不只是錢的問題，比如提升L1/L2/L3緩存可以提高性能，但是緩存佔用的核心面積很大，而且還有命中率及命中懲罰的問題，不是隨便加加單元就行的。

此外，CPU的內部還可以分為整數部分、浮點部分，前者對日常使用很重要，浮點性能對計算更重要，但CPU的浮點性能並不是日常所需的，所以大家普遍感覺不到這部分的提升。

支持AVX512的酷睿i9-7900X浮點性能提升很大

公平地說，近年來CPU浮點單元的進步是符合題目所說的單核超強的要求的，因為從SSE到AVX到AVX2再到最新的AVX-512，CPU浮點性能是有大幅提升的。如英特爾所說：「藉助多達兩個512位融合乘加 (FMA) 單元，應用程序在512位矢量內的每個時鍾周期每秒可打包32次雙精度和64次單精度浮點運算，以及八個64位和十六個32位整數。因此，與英特爾高級矢量擴展 2.0（英特爾 AVX2）相比，數據寄存器的寬度、數量以及FMA單元的寬度都增加了一倍。」

但是前面也說了，CPU的浮點性能不是日常所需的，整數性能更加重要一些，但是整數單元性能提升就沒這么明顯了，導致很多人以為CPU架構多年來擠牙膏。

多核CPU就是因為如今的單核CPU已經難以大幅度提升性能才誕生的，像X86和ARM這類通用處理器架構，一旦進入成熟期想通過修改架構來提升性能難度非常大，相比為了單核性能而消耗的時間和人力成本是相當不劃算的，可以參考下奔騰4當年為了提升單核性能而造成的失敗後果。

單核性能的提升除了架構以外很重要的一點是取決於頻率和緩存，而頻率限於CPU溫度和功耗不可能增長太快，緩存限於CPU面積和成本同樣不能快速增長，這樣頻率和緩存只能依靠半導體工藝的進步來逐步提升。

最無奈的是，如今半導體工藝進步的越來越緩慢，單單是英特爾從14nm到10nm就用了好幾年的時間，工藝進步慢，CPU的單核性能和效率就難以大幅度提高，英特爾又不可能把X86架構大幅改動，即使ARM處理器工藝進化更快，但是受限於手機對續航和晶元面積的要求，CPU的單核性能仍然無法大幅提高。

相比之下，CPU通過增加核心數的方式來提升性能是效率最高的，因為CPU每個核心幾乎都是相同的，只要整體架構定型，設計製造起來相對容易得多，而應用程序通過多線程優化可以有效利用到多核CPU，最高甚至能達到翻倍的提升，這可不是單核簡單提升一下頻率和架構就可以達到的幅度，比純粹做單核的性價比高多了。

就這樣隨著多核CPU普及，支持多核的應用程序也越來越多，多核CPU也就越來越吃香，當然如果拿多核CPU的晶體管來做一顆超強單核也未必不可，但是這對製造商的良品率要求太高了，因為是單核CPU，一旦晶圓和晶元上有一點瑕疵就可能使CPU報廢，而多核CPU可以通過屏蔽核心來降級銷售，成本和利潤自然無法相比。

英特爾、高通、聯發科都是企業，必須要權衡成本和利潤，綜合來看，做多核CPU的好處自然更符合它們的利益，即使是蘋果，也是在不斷增加A晶元的核心數，所以多核CPU是大勢所趨。

技術路線的選擇要考慮可行性，所謂可行性不僅僅包括能否實現，還包括實現難度是不是在可接受的范圍，實現的成本是不是可以承擔。而題主說的把CPU做成一個性能超強的單核，技術難度大，成本也高，並不實用。 CPU之所以選擇了多核心發展，就是因為單核心很難繼續做下去，無法持續穩定提高性能，廠商才做的多核心。

單核性能的提高遇到了瓶頸，多核處理器技術的成熟共同決定了多核處理器成為技術發展的主流選擇，而單核處理器被拋棄。

我們看看當年的幾代入門級處理器的性能，就會發現，單核性能的提升已經進入了瓶頸期。第四代入門級的 i3 4130 CPU，單核性能成績為 1982。上一代入門級的 i3 3220 CPU，單核性能成績為 1759。再上一代入門級的 i3 2130 CPU，其單核性能成績為 1744。經歷三代升級，性能的提繩微乎其微。一般認為，只有性能提升五成以上才會有比較直觀的感受。因此，單核性能的突破是一個難以克服的困難，不一定說完全不能實現，但至少是一件非常困難的事情。從理論上來說，從1990年左右開始，提高晶元的性能主要方法有兩種：

1.在有限面積內加入更多的場效應管。

2.提高時鍾。

經過二十多年的發展之後，我們已經幾乎把這兩種方法應用得爐火純青，單核CPU想要繼續突破面臨著難以克服的功耗和發熱問題，而時鍾也會受到限制。相比之下，多核CPU可以通過並行計算實現降低時鍾的目的，與此同時維持原有的計算能力。而多核處理器的協同能力則隨著技術成熟而變得穩定高效，在這個情況下，回歸單核路線，嘗試做一個超強的單核處理器是不符合現實需求的做法。

而從另外一個角度來說，就算我們繼續發展單核技術，不計代價投入，不計成本生產出來。但是，理論來說，單核處理器的性能是會有上限的，這個上限一定會比多核處理器低。這就好比一個人可以通過鍛煉提高身體力量，但是你再能打，來十個二十個人，你也夠嗆能對付吧？所以，個體的提高很重要，但是多人合作，良好的協作才是提高戰鬥力更有效更現實的選擇。同樣的道理，當多核處理器可以良好協作的時候，取代單核處理器成為技術選擇的主流也是情理之中的事情。超強單核的技術構想則不實用，太昂貴，並不存在實際可行性。

2004年64歲的英特爾CEO貝瑞特當著6500多技術員為奔騰4的時鍾頻率不能突破4GHz而當眾下跪道歉，並決定放棄4GHz主頻的奔騰4的時候，其實有已經間接的宣告了單核不可能一條道走到黑。

隨後英特爾就轉向了多核之路，2005年英特爾發布了雙核CPU，標志著CPU從單核到多核的一大轉折。在這之前多核的CPU早已經出現，比如IBM在2000年發布的POWER4就是一個雙核CPU，但畢竟電腦CPU的天下還是X86的，要說英特爾引領AMD、Sun、IBM走向多核也不為過，但也可以說英特爾是第一個在單核之路上走不下去的人，誰叫英特爾有那麼龐大的市場份額呢。

超頻能用來幹嘛？電腦愛好者都知道超頻可以發揮CPU的最強能效。超頻的原理就好像你完成舉手這個動作，本來你舉一次手需要2秒鍾，讓你1秒鍾完成一次舉手動作，再讓你1秒鍾完成10次舉手動作，再讓你1秒鍾完成100次舉手動作。CPU的性能就是這樣被提高的。如果讓時鍾的周期提高到4GHz，那麼CPU每秒就會執行40億個周期。

超頻是需要付出代價的，超頻愛好者會通過升高CPU的電壓、調教DRAM的CL等，這就意味著CPU會產生更多的熱量。所以超頻也需要更有效地散熱裝置，這才有了水冷、壓縮機散熱裝置。CPU烤肉、煮火鍋、液氮降溫的確有其事，這些事情也間接的告訴了我們單核的會有極限。

超頻愛好者會告訴你超頻一定要有干廢CPU、主板等硬體的心理准備。一件事情一個人干很累，那麼就分擔給多個人干。多核CPU就是將多個核心全部做到一個大的Die上，再加上一些外圍電路封裝成一個單獨的CPU。

但其實這種封裝技術還是屬於傳統的多核心封裝技術，多個核心需要極度地依賴PCB基板上布置的電路來完成相互通信，而PCB板限制了電路的密度，所以很難形成大規模集成IP核心的個數。

於是就有了硅中介和EMIB的解決方案，硅中介就相當於地鐵挖空建一個換乘大廳，而EMIB就好比地下隧道。至於換乘大廳好還是地下隧道好還是得看區域的用途。

從CPU這個東西發明以來曾試了無數種方法來提升性能，但除了提高頻率一直很好用之外，其他方法都很快被pass掉，因為提升的並不是很明顯。這就能解釋為什麼英特爾、AMD會樂此不疲地在提升主頻的路上，直到有一天提升主頻翻車了才走向了多核之路。

CPU的性能=時鍾頻率*IPC，IPC就是一個時鍾周期內完成的指令數，從上面的每秒鍾舉手的次數這個例子就能很好地理解。增加IPC僅會線性的增加CPU的功耗，但增加主頻就有可能以指數級的增加CPU的功耗。多核可以增加IPC來提升CPU的性能，也可以壓住頻率的提升，於是同時CPU的性能也一樣提高了。

以上個人淺見，歡迎批評指正。

我給你解釋一下...你使勁理解一下...

...

計算機處理器有個參數叫頻率...什麼2.4G 4.5G啊...這個是指一秒鍾有多少個時鍾周期...不是指令周期...指令周期一般為1-12個時鍾周期甚至更多...一般只有內部寄存器讀寫指令.加減乘指令能做到1時鍾周期...而內存存取指令的周期數很高...所有數據都在內存...根本無法有效減少內存讀寫指令...需要注意的是內存讀寫速度基本是恆定的...也就是CPU快沒用...比如假如在2.4G的處理器中讀內存中的數據為6個時鍾周期.那麼在4.8G的處理器就需要12個時鍾周期.也就是說在0.4G的處理器里是一周期...所以單純提高頻率提高性能微乎其微...

...

最先想到的就是利用CPU在等待讀內存數據的周期中提前讀下一個內存中的數據...這一系列技術最早叫預讀.但代碼有條件跳轉.能判斷條件跳轉的預讀叫分支預測.預讀的層深叫流水線...

...

流水線並不完美...在多任務操作系統中..操作系統的時間片是通過保存和恢復整個寄存器實現的.術語叫保存恢復現場...這樣切換會嚴重破壞預讀的成功率...影響預讀命中率...導致CPU仍然需要等待讀取數據...解決這個問題的辦法...就是兩個處理器核心分別處理兩個進程...當進程為3-4個的時候...在單核處理器上程序一定會正常運行...但破壞預讀性能...運行效率很低...也就是說1個4G的核跑4線速度不如4個1G的核跑4線....

...

所以提高頻率完全不會顯著提高處理器性能...而提高核數會提高性能很明顯...

理論上工廠建一個超級大的生產線就可以，那為什麼要修好多廠房和生產車間呢？

一條生產線建的再大，也只能保證用最快的速度生產完一個批次的產品。如果要同時生產好幾個批次和品種的產品呢？那是選擇用這個超大生產線一個一個批次生產，還是建幾個生產線同時生產更好呢？

同樣的，做一個超級大核只能保證用最快的時間完成一個任務。但是，如果你的電腦要同時完成幾個任務呢？你是選擇讓這個超級大核一個個任務去做，還是選擇做幾個小核分別去做？

結論：

大多數時候手機和電腦要同時處理的是很多個任務，這時候讓多個小核分別處理比讓一個大核排隊處理更高效。而一個大核的製造工藝更麻煩，發熱功耗比幾個小核更難散熱。

再舉個不恰當的例子，你要從北京送一個火箭去西昌，只能用火車拉，但是你要從食堂送幾份盒飯到宿舍樓，最好還是叫幾個快遞小哥騎電動車給你送吧。我們日常使用手機和電腦遇到很多小任務的場景遠比需要處理大任務的場景多，所以做很多小核遠比做一個大核更實用。畢竟不是每個人一天到晚都有火箭需要送到西昌。但是幾乎每天都有人需要訂外賣。

這么說吧，一個加工中心，有個分開的原料倉庫，用一輛10噸大卡車運材料，運一次可以滿足一天生產。後來產能提升，品種有多了，又在不同地點造了幾個倉庫，這時要滿足生產要麼原來的車加快速度不停的運（加快頻率），要麼買個50噸的車，每個原料還是每天運一次，運一次管幾天（加強單核運算能力），還要麼換幾台5噸的，分開運不同倉庫（多核）。

那麼問題來了，在同時生產多個產品，且產量都不高，而且生產倉庫分散的情況下是用一個50噸的車來運，還是用幾個5噸的車來運合算？

所以單核強勁固然好，但往往運用時更多時候要同時處理幾個任務，這樣多核更適用。

蘋果單核強勁，那是因為蘋果都是單線程處理的，不像安卓後台會掛一大堆進程

cpu做成一個強勁單核心是可行，只要頻率夠高，製作工藝夠先進，高速緩存l1 l2 l3參數不低於 l1不低於8way 64k，不過單核心效率就算夠高，都只能處理一件任務事情，而且達不到節能效果，發熱方面高頻u會比低頻多核心cpu高，這是其一，其二因為單核心物理核心很容易使用達到百分之99，那麼你要是多開個qq很容易造成系統未響應卡頓，相反你使用2個核心或者以上，因為其核心數量多，在處理器佔用方面隨之減少，那麼這個時候你就可以做更多的下載之類任務，或者網游多開更多窗口，同時登陸多個帳號，這是為何處理器不向單核心高頻率發展，而走向更多核心路線發展的原因，現在不管是amd 還是英特爾公司都往核心數量不斷增多就是有用戶覺得以前處理器處理數據效率太低，不如現在多核心，所以2家公司都把核心數量推上8核心或者以上，處理器分為民用，商業用，國家監測國防部用，微軟雲端伺服器，為了節能環保，達到低碳，2家公司都往多核心發展，而不是一直走高頻路線就可以，線程數量也在不斷增加。超線程效率比單線程效率高，何必只做1核心1處理器線程，給你研發個6ghz單核，它能使用范圍也是很窄，要來什麼用，所以不是單核心技術達不到超強效率，也不是技術做不到，而是無那個必要去實現浪費時間得益不明顯。

後面我們來說說關於多核心存在的意義，存在即合理，那麼為何要做那麼多核心，而不是4核心呢，這個要從網游時代游戲多開說起，就我自己玩的網游劍靈，雙開把amd fx8320 關閉核心到4個核心4個線程，此時處理器佔用使用為89%，其次像一些使用格式化工廠轉碼類軟體hd 1920x1080高解析度轉換下都會占滿100% cpu及線程,日常4k視頻轉碼

不在話下，雖然說當年snb處理器雙核心4線程i3就能幹翻fx 4300跟6300差不多持平這樣的處境，問題是2160p硬解一個已經爆占滿了佔用100開始卡頓，fx 6300則沒有，處理器多核心戰未來，雖然路漫長但是已經是如今的趨勢，不然英特爾不會把堆核心到10核心出現了i7 6950x，i9 9900k ，頻率再高單核心再強，cpu資源搶奪厲害核心數小不足的地方，不利於大數據流處理，最終導致結果必然為以卡頓告終或處理器造成程序無響應，所以多核心發展出來意義非常之重大，尤其是伺服器它的核心數量一般是民用2倍或者8倍多的核心，電腦真的不是只是用來玩游戲這一用途，你要明白，計算機它的用途很廣，計算機主要工作還是以計算速度快慢為主要，32多核心處理器不但是跑分高那麼簡單，它的渲染速度都不是8核心能比較的因為它的核心數量多，速度是比8核心快4倍，再舉個列子fx8跟翼龍x6 跑分差不多，核心數量只差2個，線程也是2個，但是跑r15浮點運算軟體速度比較慢，x6可以花費1分鍾才跑完，而fx8隻需要45秒，這個時候就體現出多核心的價值了，現在銳龍8核心16線程比8核心8線程推土機渲染快2倍那麼多，道理也是一樣。

首先我們要清楚如何衡量單核CPU的性能，首先自然是頻率，頻率更高意味著一個時間周期內可以處理更多的數據，不過光有頻率還不行，其次還要看架構等方面，這方面的表現可以通過IPC性能來進行衡量，簡單來說就是同樣的頻率下面，誰的單核心性能表現越好，IPC性能越強，所以提升單核性能可以通過提升IPC性能和頻率來實現。

而這些年以來，晶元廠家為了提升性能，在單核性能上就是通過頻率和架構的進步來實現的，頻率方面，1981年IBM電腦CPU頻率4.77Mhz, 1995年intel CPU頻率100Mhz，2000年AMD率先突破1Ghz，2003年intel CPU頻率達到了3.7Ghz，而目前最高的單核頻率才5.3GHz，可以看到歷史上的一段時間裡面，頻率的增長是很猛的，而這自然帶來了性能的提升，但是可以看到2003年到現在，頻率提升已經無法和以前相比了。

至於架構方面，PC那邊大家比較熟悉的AMD Zen1，Zen2，Zen2+，Zen3的架構，每次都會帶來性能的提升，Intel那邊也是如此，ARM處理器也是如此，從Arm V4到V9版本升級，而且在每個版本內部，還可以進行細分，實際上隨著頻率提升的變慢，通過架構升級來實現性能提升已經是目前最常見的手段之一了，不過這個地方的升級也不是隨隨便便的，一般來說一個全新的架構出來後，這個架構會使用較長的一段時間，會在這個架構的基礎上進行優化迭代，這方面Intel的Skylake就是典型。

頻率提升基本上遇到瓶頸了，架構的升級也不是那麼隨隨便便的，而用戶對性能的追求又是沒有止境的，所以單核的確是不夠用了，這種情況下廠家就想到了超線程，多核心等技術來提升CPU的性能，因此現在市面上的處理器基本上都是多核心的了，所以就目前的實際情況來看，如果可以做出超強的單核，自然不需要多核心了，但問題是很難做出這樣的單核產品。

技術方面主要是CPU頻率提升遇到了能耗這個瓶頸。因為CPU的能耗和時鍾頻率的三次方成近似正比關系，CPU頻率在3Ghz之後, 繼續提高頻率會使CPU面臨發熱燒毀的危險，而且隨著工藝的提升，晶體管密度的增加，積熱問題也越來越嚴重，會加劇燒毀的可能，所以頻率這個路子的確是很難走下去了，而架構升級，說白了就是PPA的取捨，存在能耗和晶元面積的制約。

總之單核性能當然是越高越好，但是目前的技術而言，就算是做出一個很強的單核處理器，其整體性能也不會超過那些高階的多核處理器，而且目前的操作系統是多任務的，這也讓多核處理器有了用武之地。

1.單核性能提升幅度有限，頻率有5G瓶頸，再高頻率有電子隧道效應，功耗直線上升，穩定性下降；

2.單核在一時刻只能做一件事情，沒辦法讓任務流起來，即使有指令流水線，也只是縮短了指令的平均執行周期，一個時刻仍舊最多隻有一個指令被執行；

3.多核CPU可以讓多個任務同時執行，軟體優化後還可以讓一個任務拆解在多個核心上運行，大大提高執行效率

⑷ vivo自研晶元V1開啟硬體級演算法時代將於X70系列亮相

2021年9月6日，vivo「芯之所像」主題影像技術分享會正式召開。vivo自主研發的首款專業影像晶元——vivo V1亮相，全面開啟手機硬體級演算法時代。

分享會中，超高透玻璃鏡片、全新鍍膜工藝、蔡司自然色彩等vivo手機影像技術新成果一同亮相。通過與蔡司在影像晶元、光學器件和軟體演算法的全面協同合作，vivo在技術上大幅提升了夜間拍攝體驗、減少眩光和鬼影，在專業人像和色彩上不斷提升。

vivo V1——vivo首款自主研發專業影像晶元

超大廣角、潛望變焦的出現，一次次突破人們對於手機攝影光學器件的想像。面對復雜光線、暗光場景、極限夜景以及眾多視頻拍攝場景時，手機的影像算力、晶元功耗都需要進一步升級進化。

最終，vivo與手機SoC廠商深度合作，歷時24個月、投入超300人研發，用自研專業影像晶元V1給出了答案。

作為一款全定製的特殊規格集成晶元，專業影像晶元V1與主晶元協作，效果體驗兼容兼得，擁有高算力、低時延、低功耗的特性。

在既定的業務下，V1既可以像CPU一樣高速處理復雜運算，也可以像GPU和DSP一樣，完成數據的並行處理。面對大量復雜運算，V1在能效比上相比DSP和CPU有指數級提升。

為實現其同期處理能力最大化，vivo優化數據在晶元內部的儲存架構和高速讀寫電路，實現等效32MB的超大緩存，全片上儲存。超越目前部分旗艦級桌面電腦處理器，做到低時延實時降噪插幀。

此外，在主晶元ISP強大成像能力的基礎上，疊加專業影像晶元V1內計算成像演算法，在高速處理同等計算量任務時，相比軟體實現的方式，V1的專用演算法使硬體電路功耗降低50%。

得益於V1高速數據處理，實現夜景實時預覽成片

在手機影像的道路上，vivo對極致影像的技術突破不斷探索。專業影像晶元V1的亮相，是vivo晶元戰略的第一步，未來vivo將會在晶元領域進行更全面的探索，針對特定場景拓展，最終實現全場景目標。

超低色散高透玻璃鏡片突破手機光學器件天花板

受制於空間限制，手機拍照要實現進一步跨越，做到鏡頭的升級，難度更大。此次vivo投入巨大研發成本，與蔡司團隊經過多輪驗證，最終克服了工藝、良品率等技術限制，在手機上實現了高規格玻璃鏡片，做到高透光率、超低色散、熱穩定強的效果。大幅降低了夜景拍攝時眩光鬼影的出現。

相較塑料鏡片，玻璃鏡片有著天然的低色散優勢。vivo的超低色散高透玻璃鏡片，進一步降低色散，在衡量色散能力的權威指標阿貝數上，得到了突破手機鏡頭阿貝數值的行業最高分81.6，比肩專業相機鏡片，有效解決高反差場景的紫邊、偽色等問題。

超低色散高透玻璃鏡片同樣達到了更高的純凈度，中心透過率提高至最大95%。採用AOA動態光學校準工藝，調整鏡片厚度誤差和鏡片偏心誤差引起的清晰度降低問題，保證最終鏡頭的光學品質。

多重鍍膜抑制眩光鬼影，與蔡司共同樹立行業高標准

自誕生以來，蔡司T*鍍膜一直是蔡司的看家本領，也是高畫質成像的有力保障。得益於此，vivo蔡司攜手將先進的鍍膜技術應用在手機鏡頭中，帶來媲美專業相機的成像效果。

面對炫光和鬼影等行業傳統難題，vivo創新引入SWC鍍膜技術。基於仿生學原理，充分抑制反射光，反射率最低降低至0.1%，大幅提升純凈度。此外，vivo獨家首發ALD原子層沉積工藝，在超高透玻璃鏡片上形成納米級鍍膜，進一步降低光線反射。

花瓣鬼影問題同樣是手機拍照甩不掉的陰影。vivo在鏡頭中採用色素旋塗技術，解決色素與藍玻璃的附著力問題，塗層厚度薄至2um，經過10次以上的不同工藝參數調試，最終實現量產。可以說，不論是工藝還是材質，vivo都是當前手機光學器件的行業翹楚。

忠實還原人眼所見演繹蔡司自然色彩

vivo在歷經3年10款機型的打磨中，形成了自己「鮮活」、「明快」、「有質感」的獨有風格——vivo色彩。在此次分享會上，vivo對於色彩，又有了新的解讀。

「專業創作者更傾向於忠實還原人眼所見的自然色彩」。為此vivo攜手蔡司深入探討制定了所見即所得的真實色彩理念，通過140個色卡表現以及引入3D色彩映射矩陣演算法調教262144個參數，使色相進一步准確，飽和度處理更加精細，最終使照片色相准確度ΔE提升約15.5%，領先業界帶來蔡司自然色彩。

在人像賽道中，vivo與蔡司持續進行研發與調教。於人像模式中內置蔡司鏡頭風格，深度還原蔡司經典的Biotar和Sonnar等鏡頭效果，帶來蔡司質感人像，賦能大眾創作，讓人人都可以成為人像攝影大師。

堅定vivo影像長賽道讓每個人都能享受創作帶來的樂趣

vivo將影像上的技術研發，看作系統性的技術工程。通過平台、器件、演算法等各方面的共同協作，提升最後的成像品質。專業影像晶元V1晶元的亮相，開啟了手機影像行業的下一個時代——硬體級演算法時代。

vivo希望通過對手機影像不斷的人文思考和技術探索，為用戶帶來場景、人、影像的無界體驗。即不給場景設限，何時何地想拍就拍；不給人設限，讓所有人都能拍出更好的作品；不給影像設限，讓手機影像的表達更加有力、直抵人心。

堅持影像長賽道，不斷滿足消費者需求，vivo在技術研發上突破想像力，在光學設計上追求極致，在人性化的專業影像道路上大步前行，讓每個人都有機會成為創作者。

專業影像旗艦vivo X70系列將於9月9日19點30分正式亮相。屆時搭載專業影像晶元V1的首款旗艦新品將正式到來，邀請您持續關注。

導航:首頁 > 源碼編譯 > 指數級演算法cpu

指數級演算法cpu

與指數級演算法cpu相關的資料