1. 常见服务器故障类型及排查方法总结
四,服务器故障排查方法总结
问题描述:
每当出现网站访问不了的时候,估计应该就是服务器出现故障了,这个时候大部分情况都是属于数据库出现问题。
查找步骤:
1、查找top检查服务器负载是否有问题
一般网站访问不了,top显示的负载都是很大的,这个时候可以看到mysql的进程占用资源很高,往往就是mysql发生故障了
2、在服务器中查看网站的访问记录
这些访问记录存储在:/home/对应的网站名/access-logs/对应的网站名
可以先通过tail查看,查看出异常的ip的时候可以通过grep进行过滤查看,在这个文件一般都可以找到恶意爬虫、恶意访问的记录,这些往往有可能是导致mysql数据库挂掉的原因。
3、这个时候先对数据库进行重启,对apache进行重启
service mysql restart
service httpd restart
重启之后一般都可以暂时恢复正常的访问的了。如果是出于恶意访问的话,找出恶意访问的ip把它禁止掉即可,如果是网站数据库出现故障,那么还要进行数据库排查。
4、查找数据库错误日志
首先需要知道数据库mysql的安装目录,可以通过whereis mysql找到,但是这往往没用
还有一种方法,就是通过ps -ef | grep mysql来查看
或者也可以通过进入mysql,使用select @@basedir as basePath from al来查看mysql安装目录
我们在第二种查找方法ps -ef | grep mysql中对应mysql的几种日志找到其所在目录,然后查看对应文件进行分析
mysql有以下几种日志
错误日志:-log-err
查询日志:-log
慢查询日志:-log-slow-queries
更新日志:-log-update
二进制日志:-log-bin
以上便是对应的数据库错误日志和慢查询日志的查看方法了
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
2. 服务器自动关机 不知道什么原因
可能的原因有2个。1是CPU温度过高,2是电源功率小,满足不了瞬间最大功率
3. 服务器无故自动关机
解决方法:
1、查找系统进程看看是否存在wlms.exe,如果有这个进程,那么这个进程就会导致系统的自动关闭。
2、遇到这种情况,我们就需要一个PSTools工具(这个工具在附件中可以找到),进行解压然后放到C盘的根目录下,如下图:
3、这时候直接在命令窗口,运行psexec.exe -d -i -s regedit.exe命令即可。
4、进入注册表界面,然后找到vlms这个项:
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\WLMS]
5、这时候需要‘修改路径和启动项’。
6、修改好路径和启动项后,重启服务器就完成了,这时候再回到进程中查看是否还有vmls.exe进程没有,没有即可正常使用了。
4. 服务器总是自动关机,这是怎么回事
很有可能是电简桥裤源或是内存的问题导致你的机器死机或重起后无法正常启动拦简
我有一台也是按下开机键后到启动画面就自己关了,重新按了按消渣内存后问题解决
或者看看CPU风扇是不是不转了
5. 帮忙分析服务器异常,意外关机
可能的原因:
一、内存错误
二、某个定时的服务引起死锁
三、病毒残留或者黑客攻击
四、诺顿的文件检查功能
错误检查字符:
0X00000050(0Xffffff4,0X00000000,0X808925cf,0X00000000)
主要是硬件或IO读写异常问题
检查及处理过程:
一、由于这是第一次出现类似重启,先不考虑硬件故障。 但内存错误仍有另外一个可能性就是对磁盘上的虚拟内存访问出错。先检查虚拟内存所在磁盘,未发现错误。但磁盘中有比较多的文件碎片,考虑到内存文件过于分散有可能会引起偶尔的读错误。所以在凌晨1时左右进行一次全盘的文件碎片整理。
二、根据原因代码,网络上有关于定时服务引起文件死锁的记录,而查询登录日志,离重启最近的访问来自于另一台服务器B,加上出现故障时间与整点比较接近,有可能与某些系统服务有关,所以,将B中的DNS、DHCP等服务关闭,因为这些服务会与故障服务器通讯同步,或者进行某种查询。更进一步地,将服务器和B服务器上的文件跨网络定时复制备份等功能删除。
三、从微软的网站找到有关病毒也会引发类似故障的说明(相关网址),按说明查询后排除可能性,然后,再检查可疑的设备驱动,也未发现任何可疑之处。另外,通过查询防火墙日志,在19:03前也未发现有异常的攻击事件。
四、通过网络上上报的事故报告(相关网址)中提可能的原因:
一、内存错误
二、某个定时的服务引起死锁
三、病毒残留或者黑客攻击
四、诺顿的文件检查功能
检查及处理过程:
一、由于这是第一次出现类似重启,先不考虑硬件故障。 但内存错误仍有另外一个可能性就是基模郑对磁盘上的虚拟内存访问出错。先检查虚拟内存所在磁盘,未发现错误。但磁盘中码型有比较多的文件碎片,考虑到内存文件过于分散有可能会引起偶尔的读错误。所以在凌晨1时左右进行一次全盘的文件碎片整理。
二、根据原因代码,网络上有关于定时服务引起文件死锁的记录,而查询登录日志,离重启最近的访问来自于另一台服务器B,加上出现故障时间与整点比较接近,有可能与某些系统服务有关,所以,将B中的DNS、DHCP等服务关闭,因为这些服务会与故障服务器通讯同步,或者进行某种查询。更进一步地,将服搏颂务器和B服务器上的文件跨网络定时复制备份等功能删除。
三、从微软的网站找到有关病毒也会引发类似故障的说明(相关网址),按说明查询后排除可能性,然后,再检查可疑的设备驱动,也未发现任何可疑之处。另外,通过查询防火墙日志,在19:03前也未发现有异常的攻击事件。
四、通过网络上上报的事故报告(相关网址)中提