1. 常見伺服器故障類型及排查方法總結
四,伺服器故障排查方法總結
問題描述:
每當出現網站訪問不了的時候,估計應該就是伺服器出現故障了,這個時候大部分情況都是屬於資料庫出現問題。
查找步驟:
1、查找top檢查伺服器負載是否有問題
一般網站訪問不了,top顯示的負載都是很大的,這個時候可以看到mysql的進程佔用資源很高,往往就是mysql發生故障了
2、在伺服器中查看網站的訪問記錄
這些訪問記錄存儲在:/home/對應的網站名/access-logs/對應的網站名
可以先通過tail查看,查看出異常的ip的時候可以通過grep進行過濾查看,在這個文件一般都可以找到惡意爬蟲、惡意訪問的記錄,這些往往有可能是導致mysql資料庫掛掉的原因。
3、這個時候先對資料庫進行重啟,對apache進行重啟
service mysql restart
service httpd restart
重啟之後一般都可以暫時恢復正常的訪問的了。如果是出於惡意訪問的話,找出惡意訪問的ip把它禁止掉即可,如果是網站資料庫出現故障,那麼還要進行資料庫排查。
4、查找資料庫錯誤日誌
首先需要知道資料庫mysql的安裝目錄,可以通過whereis mysql找到,但是這往往沒用
還有一種方法,就是通過ps -ef | grep mysql來查看
或者也可以通過進入mysql,使用select @@basedir as basePath from al來查看mysql安裝目錄
我們在第二種查找方法ps -ef | grep mysql中對應mysql的幾種日誌找到其所在目錄,然後查看對應文件進行分析
mysql有以下幾種日誌
錯誤日誌:-log-err
查詢日誌:-log
慢查詢日誌:-log-slow-queries
更新日誌:-log-update
二進制日誌:-log-bin
以上便是對應的資料庫錯誤日誌和慢查詢日誌的查看方法了
在伺服器的維修中,線索都會顯得撲朔迷離,有的甚至按起葫蘆翹起瓢。一般來說不可能一次就可以准確地判斷出問題的所在。這樣就要求工程師要有信心和耐心。出現錯誤一般的方法都是根據經驗優先使用最簡單排錯方法測試,如果沒有解決問題再找其它因素進行測試。總之,伺服器出錯後必須一步一步解決,沒有捷徑可言。
2. 伺服器自動關機 不知道什麼原因
可能的原因有2個。1是CPU溫度過高,2是電源功率小,滿足不了瞬間最大功率
3. 伺服器無故自動關機
解決方法:
1、查找系統進程看看是否存在wlms.exe,如果有這個進程,那麼這個進程就會導致系統的自動關閉。
2、遇到這種情況,我們就需要一個PSTools工具(這個工具在附件中可以找到),進行解壓然後放到C盤的根目錄下,如下圖:
3、這時候直接在命令窗口,運行psexec.exe -d -i -s regedit.exe命令即可。
4、進入注冊表界面,然後找到vlms這個項:
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\WLMS]
5、這時候需要『修改路徑和啟動項』。
6、修改好路徑和啟動項後,重啟伺服器就完成了,這時候再回到進程中查看是否還有vmls.exe進程沒有,沒有即可正常使用了。
4. 伺服器總是自動關機,這是怎麼回事
很有可能是電簡橋褲源或是內存的問題導致你的機器死機或重起後無法正常啟動攔簡
我有一台也是按下開機鍵後到啟動畫面就自己關了,重新按了按消渣內存後問題解決
或者看看CPU風扇是不是不轉了
5. 幫忙分析伺服器異常,意外關機
可能的原因:
一、內存錯誤
二、某個定時的服務引起死鎖
三、病毒殘留或者黑客攻擊
四、諾頓的文件檢查功能
錯誤檢查字元:
0X00000050(0Xffffff4,0X00000000,0X808925cf,0X00000000)
主要是硬體或IO讀寫異常問題
檢查及處理過程:
一、由於這是第一次出現類似重啟,先不考慮硬體故障。 但內存錯誤仍有另外一個可能性就是對磁碟上的虛擬內存訪問出錯。先檢查虛擬內存所在磁碟,未發現錯誤。但磁碟中有比較多的文件碎片,考慮到內存文件過於分散有可能會引起偶爾的讀錯誤。所以在凌晨1時左右進行一次全盤的文件碎片整理。
二、根據原因代碼,網路上有關於定時服務引起文件死鎖的記錄,而查詢登錄日誌,離重啟最近的訪問來自於另一台伺服器B,加上出現故障時間與整點比較接近,有可能與某些系統服務有關,所以,將B中的DNS、DHCP等服務關閉,因為這些服務會與故障伺服器通訊同步,或者進行某種查詢。更進一步地,將伺服器和B伺服器上的文件跨網路定時復制備份等功能刪除。
三、從微軟的網站找到有關病毒也會引發類似故障的說明(相關網址),按說明查詢後排除可能性,然後,再檢查可疑的設備驅動,也未發現任何可疑之處。另外,通過查詢防火牆日誌,在19:03前也未發現有異常的攻擊事件。
四、通過網路上上報的事故報告(相關網址)中提可能的原因:
一、內存錯誤
二、某個定時的服務引起死鎖
三、病毒殘留或者黑客攻擊
四、諾頓的文件檢查功能
檢查及處理過程:
一、由於這是第一次出現類似重啟,先不考慮硬體故障。 但內存錯誤仍有另外一個可能性就是基模鄭對磁碟上的虛擬內存訪問出錯。先檢查虛擬內存所在磁碟,未發現錯誤。但磁碟中碼型有比較多的文件碎片,考慮到內存文件過於分散有可能會引起偶爾的讀錯誤。所以在凌晨1時左右進行一次全盤的文件碎片整理。
二、根據原因代碼,網路上有關於定時服務引起文件死鎖的記錄,而查詢登錄日誌,離重啟最近的訪問來自於另一台伺服器B,加上出現故障時間與整點比較接近,有可能與某些系統服務有關,所以,將B中的DNS、DHCP等服務關閉,因為這些服務會與故障伺服器通訊同步,或者進行某種查詢。更進一步地,將服搏頌務器和B伺服器上的文件跨網路定時復制備份等功能刪除。
三、從微軟的網站找到有關病毒也會引發類似故障的說明(相關網址),按說明查詢後排除可能性,然後,再檢查可疑的設備驅動,也未發現任何可疑之處。另外,通過查詢防火牆日誌,在19:03前也未發現有異常的攻擊事件。
四、通過網路上上報的事故報告(相關網址)中提