1. 浪潮伺服器硬碟燈亮紅色怎麼辦
這個應該是出現了一些故障鍵,重啟一下試一試。
2. 故障硬碟點燈操作
按照常理說,硬碟故障了,會自動亮紅燈,故障消除後會自動恢復正常,這個本來是伺服器自帶的功能。但現實情況往往不是這樣,即使硬碟故障了,現場通過外觀也看不出來。
在運維的工作中,很大也是很重要的一項工作就是故障處理,而故障處理中以硬碟故障最為常見。如果更換錯誤,可能會造成數據丟失,後果很嚴重。那麼如何能夠准確快速的更換硬碟呢?給故障的硬碟點燈是一個非常好的選擇。
無論是raid卡還是HBA卡,每塊硬碟都有對應的LED燈,這些LED燈常用來指示磁碟的狀態和行為。例如正常狀態顯示綠色,故障狀態顯示紅色,rebuild狀態顯示粉色等等。
通過控制這些硬碟燈顏色的變化,現場操作時一眼就能定位到是哪塊盤故障了,非常的直觀(當然色盲可能有點難度,不過控制閃爍也能區分出來)。
除了定位故障硬碟更加直觀以後,也減少了我們誤操作的概率。因為這個點燈操作是在操作系統里觸發的,在操作系統里定位的故障硬碟是要更准確的。為什麼這么說呢?因為有些廠商伺服器標識的硬碟ID號是錯誤的,尤其是國產的伺服器。例如我在系統下看到的id號是[32:1],而伺服器物理機上標識得可能是5號盤。
這里我只針對LSI的RAID卡和HBA卡進行講解。
Raid卡的點燈操作用到如下命令:
MegaCli PdLocate start physdrv[32:1] -a0
使用如下命令可以查看到每塊硬碟的具體信息。
不過信息有點多,我們過濾一下信息,得到我們關心的數據。
有了這些信息就可以給硬碟進行點燈了,例如我想給Enclosure Device ID: 252,Slot Number: 1的硬碟點燈。
那麼只需要執行如下命令:
關燈使用如下命令:
這里我通過倒敘的方式講解容易理解一些,也就是結果導向進行思考。
當然,我們先把必要的軟體安裝上再講。可以直接通過yum安裝兩個軟體lsscsi、sg3_utils。
獲取硬碟燈的狀態使用如下命令:
sg_ses --dev-slot-num=1 --get=ident /dev/sg12
一個整體的點燈例子如下:
使用lsscsi -gt獲取硬碟信息和enclosu信息,確定故障硬碟的sg信息。這里我這台機器上有12塊盤,並且都在都在/dev/sg12上。
根據上面的lsscsi -gt的顯示結果,例如我們要給/dev/sdc點燈,那麼我們在找到/dev/sdc的dev-slot-num。查找這個信息的命令如下:
sg_ses --sas-addr=0x500e004aaaaaaa02 /dev/sg12
其實sg_ses還有一些其它參數進行顯示,可以了解一下。
這3條命令可以把所有硬碟的信息顯示出來,從上到下,每條信息的顯示結果越來越精簡。官方的解釋是:
通過這三個參數(clear、get、set)來控制和查看硬碟燈的狀態。如何使用就不多解釋了,相信大家都能知道。不過要了解一下get到的數字,這里找了一張官方的表格,雖然我也沒看懂。
硬碟點燈這個操作其實不難,稍微學習一下就能掌握。關鍵是如果把這個功能做成自動化的,減少人為干預,減少勞動力,這就需要動動腦子了。
例如可以寫成一個腳本,做成定時任務,有故障後自動點燈,故障消除後自動關燈。再關聯一下監控報警,再關聯一下流程,做到自動報修等等。
3. 伺服器開不了機,亮紅燈,檢查內存條和CPU沒用
這種情況一般聯系就近的技術客服解決最好!