Ⅰ 伺服器故障一般性故障檢測步驟及解決方案
網路管理員90%的工作往往是診斷和解決各種各樣的故障。雖然說沒有人喜歡麻煩,但麻煩總是自己找上門來。只有擁有高超的診斷技能,你才能在緊急情況下迅速響應,保障網路流暢地運行。當你面臨網路故障的挑戰時,首先向自己問幾個簡單的問題:有哪些地方被改變了?這個問題以前遇到過嗎?如果是,是什麼時候?是否有可能讓問題再次出現?用戶做了什麼特別的操作嗎?其他用戶有沒有遇到過同樣的問題?
接下來嘗試隔離問題,每次排除一部 分可能引起該問題的因素,逐步找出問題的真正根源。例如,如果一個工作站不能連接到伺服器,那就先確定是網路問題還是工作站本身的問題。如果能夠迅速地肯定問題出在工作站本身,你就排除了一大半可能導致問題的因素,向真正的故障根源接近一大步了。即使你最終拿不出解決辦法,不得不尋找外援,隔離問題也會節省你大量的時間。
為了說明診斷網路故障的一般過程,本文例舉了幾種故障情形,有的是常見的小問題,有的是比較艱巨的挑戰。當你遇到類似的問題時,就可以按照本文例子的介紹,先問自己幾個簡單的問題,逐步隔離問題所在,最後找到真正的問題根源。
一、找不到驗證密碼的域伺服器
毫無疑問,你也一定遇到過這樣的情形:當你坐在一台工作站之前准備登錄網路,windows卻報告說找不到用來驗證密碼的域伺服器。要解決這個故障,首先要確定問題到底出在網路、工作站還是伺服器上。從下面幾個問題開始:
→哪些地方改變了?最近是否改動過網路,而這些改動可能導致當前的問題?有沒有添加新的伺服器、拆除原有的伺服器、改動過交換機或HUB?有沒有添加或減少域控制器、將成員伺服器提升為DC(域控制器)或者相反?
→其他工作站也存在類似的問題嗎?
→伺服器正在運行嗎?
經過檢查,你發現此前工作站一直順利地運行,其他工作站沒有遇到類似的問題,伺服器也正常。根據故障現象,基本上可以確定故障出在工作站本身。接下來要確定工作站的那個地方出了故障,試試下面幾個問題:
→工作站能夠Ping到伺服器嗎?
→工作站獲得了一個IP地址嗎?
檢測表明,工作站能夠Ping到伺服器,但Ping操作有時超時,這表明工作站和伺服器之間只有斷斷續續的通信。在命令行上執行ipconfig /renew命令,多執行幾次,工作站有時會更新IP地址,有時不會。這是工作站和伺服器之間斷續通信的症狀。
現在將問題工作站的網路連接和另一台工作站的對換一下,新工作站在問題工作站的位置上也不能連接網路,而問題工作站卻能從另一個網路位置順利地連接網路。現在已經很清楚:問題工作站所在位置的電纜或Hub出了問題。
拆下故障位置上網路電纜連接Hub的那一端,將它接到另一個Hub上,故障依舊。現在可以肯定電纜就是引起故障的罪魁禍首了。
二、windows服務不能啟動
在一台Windows 2000伺服器上,部分服務設置成不用本地的系統帳戶啟動。一次重新啟動Windows 2000伺服器之後,發現這些服務沒有啟動,必須手工打開服務,重新輸入密碼,然後啟動服務。每次重新輸入密碼,都收到消息說:<用戶名字>已被授予作為服務登錄的許可權。
要解決該故障,首先回答下面幾個問題:
→哪些地方改變了?是否有人修改了伺服器?
→這個服務以前能夠啟動嗎?
→用戶名稱和密碼正確嗎?
查詢修改記錄發現,該伺服器是一個DC,不久之前還是域控制器組織單元(OU,Organizational Unit)的成員。在移出該OU之前,這些服務一直能夠順利啟動。另外,用來啟動這些服務的用戶名稱和密碼都是合法的。進一步研究發現,域控制器OU的成員有一些特殊的許可權,其中包括作為服務登錄的許可權。當出現問題的伺服器移出該OU時,伺服器失去了那些許可權。現在要做的是恢復伺服器的許可權。
要將許可權授予伺服器,請按照如下步驟操作:
→在管理控制台(MMC)中打開活動目錄用戶和計算機管理單元,再打開域控制器OU的「屬性」對話框。
→在組策略頁中,點擊「默認域控制器策略」,然後點擊「編輯」,打開組策略管理器。
→依次擴展計算機配置/Windows設置/安全設置,再擴展「本地策略」,然後點擊「用戶權利指派」。
→在右邊的窗格中,右擊「作為服務登錄」,選擇菜單「安全」。
→把用來啟動服務的用戶帳戶加入到策略,完成後點擊「確定」。
有關該問題的更多資料,請參見微軟的文章「如何解決服務啟動許可權問題」(http://support.microsoft.com/?kbid=259733)。
三、無法收到外面發來的郵件
單位用Exchange 2000 Server作為內部和外部的郵件伺服器。有一天原來的ISP不能再提供服務了,所以你迅速換了一個新的ISP。用戶仍舊能夠照常訪問Internet,卻收不到外面來的郵件。不過,發出去的郵件看來沒有問題。
要排解這一故障,第一個要問的問題是:
→在改變ISP之前,郵件系統工作正常嗎?
要確定Exchange Server是否正常工作,防火牆配置是否正確,可以從Internet連接到Exchange Server 25埠(具體操作辦法,請參見微軟文章:Telnet 到 IMC 的埠 25 以測試 IMC 通信, http://support.microsoft.com/?kbid=153119),發送一個測試消息,確認伺服器和防火牆都在正常運行。故障的原因很可能是因為改變ISP。
再回答下面這個問題:
→域名信息正確轉移到了新的ISP嗎?
用Nslookup工具,測試一下是否能夠找到域的郵件交換(MX)記錄,結果卻什麼也沒有找到。根據這一現象,可以推斷在更換ISP時,域名注冊公司沒有正確轉移域名信息。現在你可以聯系域名注冊公司,要求登記MX記錄,以及將域名信息正確轉到新的ISP。只要MX記錄在Internet上一傳播開,Exchange Server又可以收到外面來的郵件了。
四、網路上看不到伺服器
Win2K Pro工作站遇到了奇怪的問題:偶爾能夠看到Win 2K Server,但大部分時間里伺服器就象從網路上消失了一樣。在排解這一網路故障的過程中,首先要回答的問題是:
→過去出現過該故障嗎?
→是否所有的工作站都出現相同的情況?
經調查後發現,這一故障現象自伺服器從 Windows NT 4.0升級到Win2K就開始存在了,網路上的所有工作站都出現同樣的現象。現在要確定的是:故障的根源是伺服器呢,還是網路。
登錄一個工作站,打開命令控制台,執行ping/pathping命令來連接伺服器。結果發現,Ping伺服器的IP地址沒有問題,但卻Ping不到伺服器的名字。可以肯定,故障的原因是名稱解析或DNS錯誤。
接下來執行ipconfig/all,注意到工作站上DNS伺服器指向了ISP的DNS伺服器。Win2K將DNS作為其基本的名稱解析機制,但現在工作站卻用ISP的DNS伺服器來解析本地網路的Win2K伺服器名稱。當工作站向ISP的DNS伺服器查詢Win2K伺服器名稱時,只能得到超時錯誤,導致Win2K伺服器從網路上隱身了。要解決該故障,必須把主DNS伺服器指向內部的Win2K DNS伺服器,讓內網的工作站向Win2K DNS伺服器查詢本地伺服器名稱。
首先證實Win2K伺服器上確實已經安裝了DNS服務,且DNS服務在正常運行,然後修改Win2K DNS伺服器IP地址指向它自己。接下來利用DNS管理器,驗證DNS伺服器位於根位置,且已經啟用轉發。啟用轉發之後,就可以解析非本地的任何IP地址了。不要忘記將ISP的DNS伺服器輸入轉發欄。最後配置一下伺服器上的DHCP,將DNS伺服器從ISP的改成Win2K伺服器,刷新工作站上的IP地址。現在網路已經能夠穩定地運行了。有關在這類環境下配置DNS的信息,請參見微軟的文章「HOW TO:配置 DNS 以訪問 Internet」(http://support.microsoft.com/?kbid=300202)。
五、LAN連接到多個WAN
不久前在A市安裝了一個LAN,它有兩個WAN連接,其中一個連接通向私有的幀中繼網路,另一個連接通向Internet,這是為了防止出現故障和提高性能(圖二顯示了網路結構)。現在出現的故障是:A市的用戶有時不能順利訪問B市的伺服器。
要解決該故障,首先要搞清楚下面兩個問題:
→故障何時出現?
→默認網關是什麼?
故障出現是間歇性的。在A市的DHCP配置中,默認網關是192.168.1.11(即防火牆)。由於A市LAN裡面的所有機器都會出現同樣的故障現象,所以問題很可能出在A市網路上的全局性路由配置上。
在防火牆上有一條靜態路由,從192.168.2.0(掩碼255.255.255.0)到192.168.1.10,用Route Print可以驗證這一規則。A市伺服器有時可以Ping到B市的伺服器,但有時不能。運行Tracert,結果如圖三所示,它顯示出了數據包應當通過的路徑。但有的時候,運行Tracert卻顯示出數據包在第一個躍點(192.168.1.11)之後遇到超時錯誤。根據這一現象,可以推測防火牆沒有可靠地將數據包轉發到控制192.168.2.0通信的Cisco路由器。
查閱防火牆的日誌,可以看到數據包有時被禁止轉發到192.168.1.10,雖然存在這樣一條轉發規則也無濟於事。防火牆的種類很多,但大多數防火牆廠商都反對將防火牆當作路由器,如果防火牆被攻擊者劫持,有關WAN連接的大量信息就會泄露。
因此現在要重新配置網路,使用默認的網關192.168.1.10(即路由器),執行命令Ip route 0.0.0.0 0.0.0.0 192.168.1.11在路由器上建立一個默認的路由。用戶訪問Internet時先通過路由器,再穿越防火牆。
如果A市的路由器(192.168.1.10)出現故障,會對Internet訪問產生哪些影響?如果幀中繼網路失效,但Internet連接仍正常,情況又如何?一旦A市的路由器故障,Internet連接也會丟失,這是因為默認的網關指向了該路由器,該路由器故障導致數據包不能轉發到防火牆。在A市,將DHCP默認網關配置成防火牆可以恢復Internet連接,當然,在恢復A市路由器之前,其他地區的私有WAN和Internet訪問仍舊無效。
六、工作站不能連接網路
辦公大樓五樓的工作站看不到伺服器,也不能訪問Internet。故障間歇性出現。首先要搞清楚的問題是:
→故障出現多長時間了?
→有哪些地方被改變了?
經Pathping工具測試,檢測到一些數據包丟失錯誤。問題看來可以歸結到五樓之內。
利用信號發生器或線纜掃描器追蹤故障,跟蹤網路連接一直到了六樓的Ethernet交換機,五樓和六樓共用該交換機。考慮到可能是交換機埠故障,所以將埠和六樓的一台機器對換了一下,但故障仍舊存在,而且仍只出現在五樓的工作站上,由此推斷,交換機應該沒有問題。
返回五樓,注意到一個辦公室里有個五口的小Hub。進一步查看,注意到還有四個小Hub菊形相連。現在故障的根源找到了。在100 Base-T Ethernet中,每個網路只能有一個Class I轉發躍距(0.7毫秒延遲),或者兩個Class II轉發躍距(0.4毫秒延遲)(由於這個原因,所以不推薦在重要場合使用大量小Hub)。現在拆除所有小Hub,將線頭直接接到六樓的交換機,故障消失。
總地來說,不能認為靠死記硬背就能夠解決所有常見的網路問題,相反地,應當以開放的心態審視每一種故障現象,從幾個簡單的問題開始,逐步排除可能的故障原因。記住,隔離問題是迅速排解故障的關鍵所在。
七、附錄:常用網路診斷工具
Windows XP和Windows 2000提供了許多基本的網路檢測工具:
■ Pathping
Pathping用來檢驗是否能夠聯繫到指定的主機。命令行語法是:pathping 。pathping將顯示出數據包丟失情況的基本信息。
■ Ipconfig
Ipconfig命令用來顯示出工作站的IP配置。命令行語法是:ipconfig /all。通過ipconfig命令的運行結果,至少可以:
→驗證工作站具有正確的IP地址和子網掩碼。錯誤的IP地址和子網掩碼會導致連接出錯。 →如果啟用了DHCP,則可以驗證工作站已經租到了一個IP地址。如果不能獲得IP地址,則表明與DHCP伺服器聯系方面出了問題。
→驗證默認的網關。如果網關錯誤,連接遠程網路或Internet時就會出現問題。
→驗證DNS伺服器。XP和Win 2K依靠DNS進行名稱解析。一般地,工作站應當指向一台Win 2K伺服器以獲得DNS解析。
■ Nslookup
Nslookup即名稱伺服器查找(Name Server Lookup),用來查找DNS伺服器上的DNS記錄。命令語法:nslookup。在前文的例子中,我們用NSLookup來驗證郵件交換(MX)記錄,排解Internet郵件傳送問題。
■ Route Print
Route Print命令顯示出本地機器上的路由規則。這個工具和Ping、Tracert以及Pathping命令結合很有用,能夠幫助確定數據包通過的路由器。命令語法是:route print。另外,利用Route Add可以將靜態路由規則加入到伺服器或工作站。
Ⅱ 富士通伺服器報警怎麼進去查看故障
1、首先連接伺服器COM口,進入系統層面,執行相關命令獲取LOG。
2、其次系統控制台與服務處理器之間切換。
3、然後要從系統控制台切換到服務處理器提示符,請鍵入 #.(井號加句點)。富士通Fujitsu(富士通)是世界領先的日本信息通信技術(ICT)企業,提供全方位的技術產品、解決方案和服務。
Ⅲ 伺服器硬體故障要如何排查和判斷
常見伺服器硬體故障排查判斷:伺服器常見故障的診斷與解決:伺服器故障排除第一部分 伺服器故障排除的基本原則性問題伺服器故障排除一、伺服器開機黑屏故障排查1.檢查供電環境,零-火;零-地電壓?2.檢查電源指示燈,如果亮,正常嗎?3.按下電源開關時,鍵盤上指示燈亮嗎?風扇全部轉動嗎?4.是否更換過顯示器,更換另一台顯示器。5.去掉增加內存6.去掉增加的CPU7.去掉增加的第三方I/O卡8.檢查內存和CPU插的是否牢靠9. Clear CMOS10.更換主要備件,如系統板,內存和CPU伺服器故障排除二、伺服器故障排除的基本原則1.盡量恢復系統預設配置a:硬體配置:去除第三方廠商備件和非標配備件;b:資源配置:清除CMOS,恢復資源初始配置;c: BIOS,F/W,驅動程序:升級最新的BIOS,F/W和相關驅動程序;d: TPL:擴展的第三方的I/O卡屬於該機型的硬體兼容列表(TPL)嗎?2.從基本到復雜a:系統上從個體到網路:首先將存在故障的伺服器獨立運行,待測試正常後再接入網路運行,觀察故障現象變化並處理。b:硬體上從最小系統到現實系統:指從可以運行的硬體開始逐步到現實系統為止。c:軟體上從基本系統到現實系統:指從基本操作系統開始逐步到現實系統為止。3.交換對比a:在最大可能相同的條件下,交換操作簡單效果明顯的部件;b:交換NOS載體,既交換軟體環境;c:交換硬體,既交換硬體環境;d:交換整機,既交換整體環境;伺服器故障排除三、伺服器故障排除需要收集哪些信息?伺服器信息:1.機器型號2.機器序列號(S/N:如:NC00075534)3.Bios版本4.是否增加其它設備,如網卡,SCSI卡,內存,CPU5.硬碟如何配置,是否做陣列,陣列級別6.安裝什麼操作系統及版本(Windows Server, Netware, Sco, others)
故障信息1.在POST時,屏幕顯示的異常信息2.伺服器本身指示燈的狀態?3.報警聲和BEEP CODES4. NOS的事件記錄文件?5. Events Log文件
確定故障類型和故障現象:1.開機無顯示;2.上電自檢階段故障;3.安裝階段故障和現象;4.操作系統載入失敗;5.系統運行階段故障.
Ⅳ 伺服器常見故障是什麼,怎麼排除
1、伺服器常見的故障及其排除方法
伺服器中的某項服務被停止 •系統資源不足 •伺服器軟體故障
伺服器軟體故障是在伺服器故障中佔有比例最高的部份,約佔70%。導致伺服器出現軟體故障的原因有很多,最常見的是伺服器BIOS版本太低、伺服器的管理軟體或伺服器的驅動程序有BUG、應用程序有沖突及人為造成的軟體故障。伺服器軟體設置不當也會可能造成網路故障。
管理方面的問題
如用戶的帳戶和安全設置方面的潛在問題,服務許可權沒有給用戶、配置不當或限制某些服務等問題
2 伺服器故障排除的基本原則
伺服器故障排除的基本原則如下:
(1) 盡量恢復系統預設配置
(2) 從基本到復雜
首先將存在故障的伺服器獨立運行,待測試正常後再接入網路運行,觀察故障現象變化並處理;然後從可以運行的硬體開始逐步到現實系統為止;最後從基本操作系統開始逐步到現實系統為止。
(3)交換對比
首先在最大可能相同的條件下,交換操作簡單效果明顯的部件;其次是交換軟體環境;再者是交換硬體,既交換硬體環境;最後是交換整機,既交換整體環境。
在伺服器故障排除時,需要收集如下一些信息:
伺服器信息:機器型號(P/N:)、機器序列號(S/N:)、Bios 版本、是否增加其它設備(如網卡,SCSI 卡,內存,CPU等)、硬碟如何配置和安裝什麼操作系統及版本。
故障信息:在POST(加電自檢)時,屏幕顯示的異常信息、伺服器本身指示燈的狀態和報警聲,以及操作系統的事件記錄文件等信息。
確定故障類型和故障現象:開機無顯示;上電自檢階段故障;安裝階段故障和現象;操作系統載入失敗和系統運行階段故障。
Ⅳ 宕機伺服器如何排查故障
宕機伺服器排查故障方法
1、在運行環境的問題中,最普遍的問題時磁碟空間耗盡。
2、在性能問題中,最普通的伺服器宕機原因確實是運行很糟糕的SQL,但也不一定都是這個原因,比如也有很多問題時由於伺服器Bug或錯誤的行為導致的。
3、糟糕的Schema和索引設計是第二大影響性能的問題。
4、復制問題通常由於主備數據不一致導致。
5、數據丟失問題通常由於操作的錯誤操作導致,並總是便隨著缺少可用備份的問題。
6.由於系統原因,導致的伺服器宕機,一般重啟下伺服器就可以。
明白了伺服器宕機的原因,我們就可以採取相應的措施來排查。宕機伺服器如何排查故障
Ⅵ 如何使用電梯伺服器查詢故障
1、拔插法:「拔插法」是將插件「拔出」或「插入」來尋找故障的方法。例如,機器出現「死鎖」現象,採用這種方法一塊一塊地拔出插件板,若機器恢復正常,說明故障出在該板上。
2、替換法:替換法」是採用已確定是最好的器件來替換被懷疑有問題的器件,逐步縮小查找范圍。
3、比較法:「比較法」是用正確的特徵(波形或電壓)與有故障機器的特徵(波形或電壓)進行比較,看哪一個組件的波形或電壓不符,根據邏輯電路圖逐極測量,使信號由追求源的方向逐點檢測,分析後確定故障位置。
4、測量法:「測量法」也稱「靜態測量法」,就是設法把計算機暫停在某一特定狀態,根據邏輯圖,用萬用表測量所需各點電平、分析判斷故障的有效方法。
5、升溫法:「升溫法」就是人為地把環境溫度升高,加速一些高溫參數較差的元器件「死亡」來尋找故障的方法。
6、敲擊法:機器運行時好時壞,可能是元件可組件的管腳虛焊或接觸不良或金屬通孔電阻增大等原因造成的。對這種情況,可用敲擊法進行檢查,用橡皮榔頭輕輕敲擊電路板,然後再檢查就容易多了。
7、分割法:分割法就是故障「分割」開,逐步縮小件板,縮小到某條線上,再到某個點的方法。
8、直接觀察法:真接觀察法就是利用人的感官,直接觀察火花、異常的聲響、過熱、燒焦等現象,確定電源短路、過流、過壓以及插件松動、元件銹蝕損壞等明顯故障。
9、隔離壓縮法:即根據故障的現象和硬體部件,採取暫時斷開有關部位的一些信息或簡化原始數據來減少查找范圍。
10.程序測試法:即利用開機自檢程序、高級專用診斷程序來幫助查尋故障原因,診斷程序以菜單形式提供多項測硬驅、軟碟機、CD—ROM、列印機等檢測,若硬體出現故障則顯示錯誤、出響聲從而獲得故障點及其原因。
(6)奧蒂斯spbc伺服器如何看故障擴展閱讀:
3000 主板更換成 3000new主板需要注意:
① 接線:3000new 主板後面多出來的 5PIN 端子不接。
② 參數:設置 F1-25 電機類型,同步機設為 1,非同步機設成 0。
③ 如果用在非同步機現場,需要配置 MCTC-PG-A2 的 PG 卡。
④ 並聯,CAN2 端子無法使用,使用 3000 的方式進行並聯。
Ⅶ windows伺服器怎麼看硬體是否有故障
1、看系統日誌,主要是查看硬碟IO故障
2、看系統溫度,如果溫度過高,就有宕機的風險
3、看系統有無藍屏,如果頻繁藍屏,很可能是硬體有問題