① 普通計算機和大型伺服器的GPU溫度測量原理(硬體)
深度學習GPU工作站/伺服器硬體配置方案
I
市場上用於深度學習訓練計算機大致情況如下:
(1)伺服器/工作站(支持2、4、8塊GPU架構):普遍存在噪音大,無法放置於辦公環境,必須放到專門的機房,維護成本高,另外數據存儲帶寬、延遲、容量也不盡如意。
(2)分布式集群架構:性能強大,但是開發成本太高(太貴),是大多數科研單位及個人無法承受。
(3)組裝電腦:這類特點是價格便宜,但是在散熱和功率方面依然是普通家用/游戲電腦標准,穩定性巨差。
(4)大部分GPU計算機(伺服器/工作站):重點都放在GPU卡數量上,似乎只要配上足夠GPU卡,就可以了。
然而,機器硬體配置還需要整體均衡,不同的學習框架更需要不同GPU卡去適配。
主流學習框架
主流框架加速效能
上圖是不同的DL框架加速效能(NVIDIA GP100為例),不同的框架並不是GPU越多效能就越高。
深度學習計算密集,所以需要一個快速多核CPU,對吧?!
聽說深度學習有很多顯卡就可以了,一個高速CPU可能是種浪費?!
搭建一個深度學習系統時,最糟糕的事情之一就是把錢浪費在並非必需的硬體上。
一個高性能且經濟的深度學習系統所需的硬體到底要如何配置?!
一. 深度學習計算特點與硬體配置分析:
深度學習計算特點
1.數據存儲要求
在一些深度學習案例中,數據存儲會成為明顯的瓶頸。做深度學習首先需要一個好的存儲系統,將歷史資料保存起來。
主要任務:歷史數據存儲,如:文字、圖像、聲音、視頻、資料庫等。
數據容量:提供足夠高的存儲能力。
讀寫帶寬:多硬碟並行讀寫架構提高數據讀寫帶寬。
介面:高帶寬,同時延遲低。
傳統解決方式:專門的存儲伺服器,藉助萬兆埠訪問。
缺點:帶寬不高,對深度學習的數據讀取過程時間長(延遲大,兩台機器之間數據交換),成本還巨高。
UltraLA解決方案:
將並行存儲直接通過PCIe介面,提供最大16個硬碟的並行讀取,數據量大並行讀取要求高,無論是匯流排還是硬碟並行帶寬,都得到加大提升,滿足海量數據密集I/O請求和計算需要。
2. CPU要求
如今深度學習CPU似乎不那麼重要了,因為我們都在用GPU,為了能夠明智地選擇CPU我們首先需要理解CPU,以及它是如何與深度學習相關聯的,CPU能為深度學習做什麼呢?當你在GPU上跑深度網路時,CPU進行的計算很少,但是CPU仍然需要處理以下事情:
(1)數據從存儲系統調入到內存的解壓計算。
(2)GPU計算前的數據預處理。
(3)在代碼中寫入並讀取變數,執行指令如函數調用,創建小批量數據,啟動到GPU的數據傳輸。
(4)GPU多卡並行計算前,每個核負責一塊卡的所需要的數據並行切分處理和控制。
(5)增值幾個變數、評估幾個布爾表達式、在GPU或在編程裡面調用幾個函數——所有這些會取決於CPU核的頻率,此時唯有提升CPU頻率。
傳統解決方式:CPU規格很隨意,核數和頻率沒有任何要求。
UltraLA解決方案:
CPU頻率盡量高
CPU三級緩存盡量大(有必要科普一下CPU緩存)
「這是個經常被忽視的問題,但是通常來說,它在整個性能問題中是非常重要的一部分。CPU緩存是容量非常小的直接位於CPU晶元上的存儲,物理位置非常接近CPU,能夠用來進行高速計算和操作。CPU通常有緩存分級,從小型高速緩存(L1,L2)到低速大型緩存(L3,L4)。作為一個程序員,你可以將它想成一個哈希表,每條數據都是一個鍵值對(key-value-pair),可以高速的基於特定鍵進行查找:如果找到,就可以在緩存得值中進行快速讀取和寫入操作;如果沒有找到(被稱為緩存未命中),CPU需要等待RAM趕上,之後再從內存進行讀值——一個非常緩慢的過程。重復的緩存未命中會導致性能的大幅下降。有效的CPU緩存方案與架構對於CPU性能來說非常關鍵。深度學習代碼部分——如變數與函數調用會從緩存中直接受益。」
CPU核數:比GPU卡數量大(原則:1核對應1卡,核數要有至少2個冗餘)。
3. GPU要求
如果你正在構建或升級你的深度學習系統,你最關心的應該也是GPU。GPU正是深度學習應用的核心要素——計算性能提升上,收獲巨大。
主要任務:承擔深度學習的數據建模計算、運行復雜演算法。
傳統架構:提供1~8塊GPU。
UltraLA解決方案:
數據帶寬:PCIe8x 3.0以上。
數據容量:顯存大小很關鍵。
深度學習框架匹配:CPU核-GPU卡 1對1。
GPU卡加速:多卡提升並行處理效率。
4.內存要求
至少要和你的GPU顯存存大小相同的內存。當然你也能用更小的內存工作,但是,你或許需要一步步轉移數據。總而言之,如果錢夠,而且需要做很多預處理,就不必在內存瓶頸上兜轉,浪費時間。
主要任務:存放預處理的數據,待GPU讀取處理,中間結果存放。
UltraLA解決方案:
數據帶寬最大化:單Xeon E5v4 4通道內存,雙XeonE5v4 8通道內存,內存帶寬最大化。
內存容量合理化:大於GPU總顯存。
說了那麼多,到底該如何配置深度學習工作站,下面是干貨來襲~
二. 深度學習工作站介紹與配置推薦
1. UltraLABGX370i-科研型
UltraLAB GX370i-科研型
硬體架構:4核4.7GHz~5.0GHz+4塊GPU+64GB內存+4塊硬碟(最大)
機器特點:高性價比,最快預處理和GPU超算架構
數據規模:小規模
2. UltraLABGX490i-高效型
硬體架構:配置10核4.5GHz+4塊GPU+128GB+4塊硬碟(最大)
機器特點:較GX360i,CPU核數和內存容量提升
數據規模:中小規模
UltraLAB GX490i基準配置
3. UltraLABGX490M-高性能型
硬體架構:配置6核4.5GHz/8核4.3GHz/10核4.3GHz+最大7塊GPU+256GB+20盤位並行存儲
機器特點:GPU數量支持到7塊,支持海量數據並行存儲
數據規模:中大規模
4. UltraLABGX620M-超級型
UltraLAB GX620M
硬體架構:雙Xeon可擴展處理器(最大56核,最高3.8GHz)+最大9塊GPU+20盤位並行存
機器特點:目前最強大的CPU+GPU異構計算
數據規模:建模與模擬計算、高性能科學計算、機器/深度學習
UltraLAB GX620M基準配置
UltraLAB深度學習工作站特點:
(1)種類豐富: GX370i(1C4G), GX490i(1C4G) --科研型,GX490M(1C7G)、GX620M(2C9G)--超級型。
(2)性能特點:超高頻+多GPU+海量高速存儲+靜音級=最完美強大DL硬體平台。
(3)應用平台:完美支持TensorFlow,Caffe,Torch,DIGITS,
② linux伺服器如何查看GPU信息
Linux查看顯卡信息:
[python]view plain
lspci|grep-ivga
使用nvidia GPU可以:
[python]view plain
lspci|grep-invidia
表頭釋義:
Fan:顯示風扇轉速,數值在0到100%之間,是計算機的期望轉速,如果計算機不是通過風扇冷卻或者風扇壞了,顯示出來就是N/A;
Temp:顯卡內部的溫度,單位是攝氏度;
Perf:表徵性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU匯流排的相關信息;
Disp.A:是Display Active的意思,表示GPU的顯示是否初始化;
Memory Usage:顯存的使用率;
Volatile GPU-Util:浮動的GPU利用率;
Compute M:計算模式;
下邊的Processes顯示每塊GPU上每個進程所使用的顯存情況。
如果要周期性的輸出顯卡的使用情況,可以用watch指令實現:
[python]view plain
watch-n10nvidia-smi
命令行參數-n後邊跟的是執行命令的周期,以s為單位。
③ 如何看自己的伺服器裡面有沒有裝顯卡
打開設備管理器,選擇『顯示適配器』,即可看到已安裝的顯卡列表。
或者網路『GPUZ』,下載安裝,打開GPUZ即可查看已安裝顯卡的詳細信息。
④ c++ linux 如何獲取顯卡的數量
可以使用shell命令lspci。lspci就是顯示所有的pci設備信息,pci是一種匯流排,而通過pci匯流排連接的設備就是pci設備。我們只需要在PCI匯流排裡面把顯示設備找出來就可以。
linux的shell命令可以查看顯卡:
lspci|grepVGA
如果出現命令沒有找到的提示,可以如下操作:
檢查一下:
yumwhatprovides*/lspci
安裝:
yuminstallpciutils
最後再次使用lspci命令
lspci|grepVGA|wc-l
⑤ 在linux 下怎麼查看伺服器的cpu和內存的硬體信息
可以按照如下方式進行操作:
一、查看cpu總個數方法:
1、首先執行top命令,如下圖中內容所表示。
linux通用命令:
1、date :print or set the system date and time
2、stty -a: 可以查看或者列印控制字元(Ctrl-C, Ctrl-D, Ctrl-Z等)
3、passwd: print or set the system date and time (用passwd -h查看)
4、logout, login: 登錄shell的登錄和注銷命令
5、pwd: print working directory
6、more, less, head tail: 顯示或部分顯示文件內容.
7、lp/lpstat/cancel, lpr/lpq/lprm: 列印文件.
8、更改文件許可權: chmod u+x...
9、刪除非空目錄:rm -fr dir
10、拷貝目錄: cp -R dir
⑥ Linux伺服器如何查看GPU信息
Linux查看顯卡信息:
[python] view
plain
lspci | grep -i vga
使用nvidia
GPU可以:
[python] view
plain
lspci | grep -i nvidia
前邊的序號
"00:0f.0"是顯卡的代號(這里是用的虛擬機);
查看指定顯卡的詳細信息用以下指令:
[python] view
plain
lspci -v -s 00:0f.0
Linux查看Nvidia顯卡信息及使用情況
Nvidia自帶一個命令行工具可以查看顯存的使用情況:
[python] view
plain
nvidia-smi
表頭釋義:
Fan:顯示風扇轉速,數值在0到100%之間,是計算機的期望轉速,如果計算機不是通過風扇冷卻或者風扇壞了,顯示出來就是N/A;
Temp:顯卡內部的溫度,單位是攝氏度;
Perf:表徵性能狀態,從P0到P12,P0表示最大性能,P12表示狀態最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU匯流排的相關信息;
Disp.A:是Display
Active的意思,表示GPU的顯示是否初始化;
Memory
Usage:顯存的使用率;
Volatile
GPU-Util:浮動的GPU利用率;
Compute
M:計算模式;
下邊的Processes顯示每塊GPU上每個進程所使用的顯存情況。
如果要周期性的輸出顯卡的使用情況,可以用watch指令實現:
[python] view
plain
watch -n 10 nvidia-smi
命令行參數-n後邊跟的是執行命令的周期,以s為單位。
⑦ 如何查看linux伺服器是否有gpu
如果要圖形化界面到話,先安裝hardinfo ,在終端輸入 sudo spt-get install hardinfo
否則可以直接在終端輸入lspci查看
可看到顯卡信息和cpu,gpu信息。
再去官網或linux論壇,下載對應顯卡驅動,就可以得到完整信息並提升顯卡發揮的性能
⑧ Linux下如何查看NVIDIA顯卡信息
1、首先在ubuntu系統中按Ctrl+Alt+T快捷鍵打開命令輸入框,輸入「gnome-terminal」命令,然後按回車鍵即可打開終端:
⑨ GPU伺服器是如何劃分計算型與圖像型
一個刀片上面有10個披薩x1的介面,通過usb線可以與10個顯卡連接,就是你說的GPU伺服器了。不如用一個好主板,上面有幾個x16或者x8的披薩加上幾個x1的,能實現多卡交火,至於你能幹什麼我不知道,用軟體跑分在網上曬的太多了,見過幾百萬分的顯卡跑分,純粹跑的是錢,你用6塊1070/80鈦就應該行。安裝挖礦軟體就是計算型,安裝游戲就是圖像型。