导航:首页 > 配服务器 > 如何爬取服务器

如何爬取服务器

发布时间:2023-09-22 04:30:35

❶ 如何爬取网站上的某一信息

两类网站可以用不同的方法去爬取
一、开放API的网站
一个网站如果开放了API,那么就可以直接GET到它的json数据。有三种方法可以判断一个网站是否开放了API。

1、在站内寻找API入口;

2、用搜索引擎搜索“某网站API”;

3、抓包。有的网站虽然用到了ajax,但是通过抓包还是能够获取XHR里的json数据的(可用抓包工具抓包,也可以通过浏览器按F12抓包:F12-Network-F5刷新)。

二、不开放API的网站

1、如果网站是静态页面,那么可以用requests库发送请求,再通过HTML解析库(lxml、parsel等)来解析响应的text;解析库强烈推荐parsel,不仅语法和css选择器类似,而且速度也挺快,Scrapy用的就是它。

2、如果网站是动态页面,可以先用selenium来渲染JS,再用HTML解析库来解析driver的page_source。

❷ 如何应对网站反爬虫策略如何高效地爬大量数据

一般有一下几种

一些常用的方法
IP代理

对于IP代理,各个语言的Native Request API都提供的IP代理响应的API, 需要解决的主要就是IP源的问题了.
网络上有廉价的代理IP(1元4000个左右), 我做过简单的测试, 100个IP中, 平均可用的在40-60左右, 访问延迟均在200以上.
网络有高质量的代理IP出售, 前提是你有渠道.
因为使用IP代理后, 延迟加大, 失败率提高, 所以可以将爬虫框架中将请求设计为异步, 将请求任务加入请求队列(RabbitMQ,Kafka,Redis), 调用成功后再进行回调处理, 失败则重新加入队列. 每次请求都从IP池中取IP, 如果请求失败则从IP池中删除该失效的IP.
Cookies

有一些网站是基于cookies做反爬虫, 这个基本上就是如 @朱添一 所说的, 维护一套Cookies池
注意研究下目标网站的cookies过期事件, 可以模拟浏览器, 定时生成cookies
限速访问

像开多线程,循环无休眠的的暴力爬取数据, 那真是分分钟被封IP的事, 限速访问实现起来也挺简单(用任务队列实现), 效率问题也不用担心, 一般结合IP代理已经可以很快地实现爬去目标内容.

一些坑

大批量爬取目标网站的内容后, 难免碰到红线触发对方的反爬虫机制. 所以适当的告警提示爬虫失效是很有必有的.
一般被反爬虫后, 请求返回的HttpCode为403的失败页面, 有些网站还会返回输入验证码(如豆瓣), 所以检测到403调用失败, 就发送报警, 可以结合一些监控框架, 如Metrics等, 设置短时间内, 告警到达一定阀值后, 给你发邮件,短信等.
当然, 单纯的检测403错误并不能解决所有情况. 有一些网站比较奇葩, 反爬虫后返回的页面仍然是200的(如去哪儿), 这时候往往爬虫任务会进入解析阶段, 解析失败是必然的. 应对这些办法, 也只能在解析失败的时候, 发送报警, 当告警短时间到达一定阀值, 再触发通知事件.
当然这个解决部分并不完美, 因为有时候, 因为网站结构改变, 而导致解析失败, 同样回触发告警. 而你并不能很简单地区分, 告警是由于哪个原因引起的.

❸ 如何爬虫网页数据

爬取网页数据原理如下:
如果把互联网比作蜘蛛网,爬虫就是蜘蛛网上爬行的蜘蛛,网络节点则代表网页。当通过客户端发出任务需求命令时,ip将通过互联网到达终端服务器,找到客户端交代的任务。一个节点是一个网页。蜘蛛通过一个节点后,可以沿着几点连线继续爬行到达下一个节点。
简而言之,爬虫首先需要获得终端服务器的网页,从那里获得网页的源代码,若是源代码中有有用的信息,就在源代码中提取任务所需的信息。然后ip就会将获得的有用信息送回客户端存储,然后再返回,反复频繁访问网页获取信息,直到任务完成。

❹ 如何在爬虫中设置代理服务器HttpClient,可以连续爬取,请老师给具体代码,谢谢!

java">httpClient.getHostConfiguration().setProxy(dynamicIp.getIp(),dynamicIp.getPort());

这样可以,我这里dynamicIp是从redis里随机取的,有个定时任务去取代理IP放redis里面

❺ 如何获取服务器IP地址

如何获取服务器IP地址

获取服务器ip地址方法有很多这里介绍一个比较方便的

需要知道自己的域名

1、开始->运行->cmd

❻ 黑客是如何窃取服务器文件的

我的经验就是打补丁,装杀毒软件,防火墙。不过还是转一篇文章楼主看下吧,其实想找的话,这样的文章网络上一堆。

服务器安全配置精华技巧

Windows2000 含有很多的安全功能和选项,如果你合理的配置它们,那么windows 2000将会是一个很安全的操作系统。

初级安全篇

1.物理安全

服务器应该安放在安装了监视器的隔离房间内,并且监视器要保留15天以上的摄像记录。另外,机箱,键盘,电脑桌抽屉要上锁,以确保旁人即使进入房间也无法使用电脑,钥匙要放在另外的安全的地方。

2.停掉Guest 帐号

在计算机管理的用户里面把guest帐号停用掉,任何时候都不允许guest帐号登陆系统。为了保险起见,最好给guest 加一个复杂的密码,你可以打开记事本,在里面输入一串包含特殊字符,数字,字母的长字符串,然后把它作为guest帐号的密码拷进去。

3.限制不必要的用户数量

去掉所有的plicate user 帐户, 测试用帐户, 共享帐号,普通部门帐号等等。用户组策略设置相应权限,并且经常检查系统的帐户,删除已经不在使用的帐户。这些帐户很多时候都是黑客们入侵系统的突破口,系统的帐户越多,黑客们得到合法用户的权限可能性一般也就越大。国内的nt/2000主机,如果系统帐户超过10个,一般都能找出一两个弱口令帐户。我曾经发现一台主机197个帐户中竟然有180个帐号都是弱口令帐户。

4.创建2个管理员用帐号

虽然这点看上去和上面这点有些矛盾,但事实上是服从上面的规则的。 创建一个一般权限帐号用来收信以及处理一些*常事物,另一个拥有Administrators 权限的帐户只在需要的时候使用。可以让管理员使用 “ RunAS” 命令来执行一些需要特权才能作的一些工作,以方便管理。

5.把系统administrator帐号改名

大家都知道,windows 2000 的administrator帐号是不能被停用的,这意味着别人可以一遍又一边的尝试这个帐户的密码。把Administrator帐户改名可以有效的防止这一点。当然,请不要使用Admin之类的名字,改了等于没改,尽量把它伪装成普通用户,比如改成:guestone 。

6.创建一个陷阱帐号

什么是陷阱帐号? Look!>创建一个名为” Administrator”的本地帐户,把它的权限设置成最低,什么事也干不了的那种,并且加上一个超过10位的超级复杂密码。这样可以让那些 Scripts s忙上一段时间了,并且可以借此发现它们的入侵企图。或者在它的login scripts上面做点手脚。嘿嘿,够损!

7.把共享文件的权限从”everyone”组改成“授权用户”

“everyone” 在win2000中意味着任何有权进入你的网络的用户都能够获得这些共享资料。任何时候都不要把共享文件的用户设置成”everyone”组。包括打印共享,默认的属性就是”everyone”组的,一定不要忘了改。

8.使用安全密码

一个好的密码对于一个网络是非常重要的,但是它是最容易被忽略的。前面的所说的也许已经可以说明这一点了。一些公司的管理员创建帐号的时候往往用公司名,计算机名,或者一些别的一猜就到的东西做用户名,然后又把这些帐户的密码设置得N简单,比如 “welcome” “iloveyou” “letmein”或者和用户名相同等等。这样的帐户应该要求用户首此登陆的时候更改成复杂的密码,还要注意经常更改密码。前些天在IRC和人讨论这一问题的时候,我们给好密码下了个定义:安全期内无法破解出来的密码就是好密码,也就是说,如果人家得到了你的密码文档,必须花43天或者更长的时间才能破解出来,而你的密码策略是42天必须改密码。

9.设置屏幕保护密码

很简单也很有必要,设置屏幕保护密码也是防止内部人员破坏服务器的一个屏障。注意不要使用OpenGL和一些复杂的屏幕保护程序,浪费系统资源,让他黑屏就可以了。还有一点,所有系统用户所使用的机器也最好加上屏幕保护密码。

10. 使用NTFS格式分区

把服务器的所有分区都改成NTFS格式。NTFS文件系统要比FAT,FAT32的文件系统安全得多。这点不必多说,想必大家得服务器都已经是NTFS的了。
11.运行防毒软件

我见过的Win2000/Nt服务器从来没有见到有安装了防毒软件的,其实这一点非常重要。一些好的杀毒软件不仅能杀掉一些着名的病毒,还能查杀大量木马和后门程序。这样的话,“黑客”们使用的那些有名的木马就毫无用武之地了。不要忘了经常升级病毒库

12.保障备份盘的安全

一旦系统资料被破坏,备份盘将是你恢复资料的唯一途径。备份完资料后,把备份盘防在安全的地方。千万别把资料备份在同一台服务器上,那样的话,还不如不要备份。

中级安全篇:

1.利用win2000的安全配置工具来配置策略

微软提供了一套的基于MMC(管理控制台)安全配置和分析工具,利用他们你可以很方便的配置你的服务器以满足你的要求。具体内容请参考微软主页:

http://www.microsoft.com/windows200...y/sctoolset.asp

2.关闭不必要的服务

windows 2000 的 Terminal Services(终端服务),IIS ,和RAS都可能给你的系统带来安全漏洞。为了能够在远程方便的管理服务器,很多机器的终端服务都是开着的,如果你的也开了,要确认你已经正确的配置了终端服务。有些恶意的程序也能以服务方式悄悄的运行。要留意服务器上面开启的所有服务,中期性(每天)的检查他们。下面是C2级别安装的默认服务:

Computer Browser service TCP/IP NetBIOS Helper

Microsoft DNS server Spooler

NTLM SSP Server

RPC Locator WINS

RPC service Workstation

Netlogon Event log

3.关闭不必要的端口

关闭端口意味着减少功能,在安全和功能上面需要你作一点决策。如果服务器安装在_blank">防火墙的后面,冒的险就会少些,但是,永远不要认为你可以高枕无忧了。用端口扫描器扫描系统所开放的端口,确定开放了哪些服务是黑客入侵你的系统的第一步。\system32\drivers\etc\services 文件中有知名端口和服务的对照表可供参考。具体方法为:

网上邻居>属性>本地连接>属性>internet 协议(tcp/ip)>属性>高级>选项>tcp/ip筛选>属性 打开tcp/ip筛选,添加需要的tcp,udp,协议即可。

4.打开审核策略

开启安全审核是win2000最基本的入侵检测方法。当有人尝试对你的系统进行某些方式(如尝试用户密码,改变帐户策略,未经许可的文件访问等等)入侵的时候,都会被安全审核记录下来。很多的管理员在系统被入侵了几个月都不知道,直到系统遭到破坏。下面的这些审核是必须开启的,其他的可以根据需要增加:

策略 设置

审核系统登陆事件 成功,失败

审核帐户管理 成功,失败

审核登陆事件 成功,失败

审核对象访问 成功

审核策略更改 成功,失败

审核特权使用 成功,失败

审核系统事件 成功,失败

5.开启密码密码策略

策略 设置

密码复杂性要求 启用

密码长度最小值 6位

强制密码历史 5 次

强制密码历史 42 天
6.开启帐户策略

策略 设置

复位帐户锁定计数器 20分钟

帐户锁定时间 20分钟

帐户锁定阈值 3次

7.设定安全记录的访问权限

安全记录在默认情况下是没有保护的,把他设置成只有Administrator和系统帐户才有权访问。

8.把敏感文件存放在另外的文件服务器中

虽然现在服务器的硬盘容量都很大,但是你还是应该考虑是否有必要把一些重要的用户数据(文件,数据表,项目文件等)存放在另外一个安全的服务器中,并且经常备份它们。

9.不让系统显示上次登陆的用户名

默认情况下,终端服务接入服务器时,登陆对话框中会显示上次登陆的帐户明,本地的登陆对话框也是一样。这使得别人可以很容易的得到系统的一些用户名,进而作密码猜测。修改注册表可以不让对话框里显示上次登陆的用户名,具体是:

HKLM\Software\Microsoft\Windows NT\CurrentVersion\Winlogon\DontDisplayLastUserName

把 REG_SZ 的键值改成 1 .

10.禁止建立空连接

默认情况下,任何用户通过通过空连接连上服务器,进而枚举出帐号,猜测密码。我们可以通过修改注册表来禁止建立空连接:

Local_Machine\System\CurrentControlSet\Control\LSA-RestrictAnonymous 的值改成”1”即可。

10.到微软网站下载最新的补丁程序

很多网络管理员没有访问安全站点的习惯,以至于一些漏洞都出了很久了,还放着服务器的漏洞不补给人家当靶子用。谁也不敢保证数百万行以上代码的2000不出一点安全漏洞,经常访问微软和一些安全站点,下载最新的service pack和漏洞补丁,是保障服务器长久安全的唯一方法。

高级篇:

1. 关闭 DirectDraw

这是C2级安全标准对视频卡和内存的要求。关闭DirectDraw可能对一些需要用到DirectX的程序有影响(比如游戏,在服务器上玩星际争霸?我晕..$%$^%^&??),但是对于绝大多数的商业站点都应该是没有影响的。 修改注册表 HKLM\SYSTEM\CurrentControlSet\Control\GraphicsDrivers\DCI 的Timeout(REG_DWORD)为 0 即可。

2.关闭默认共享

win2000安装好以后,系统会创建一些隐藏的共享,你可以在cmd下打 net share 查看他们。网上有很多关于IPC入侵的文章,相信大家一定对它不陌生。要禁止这些共享 ,打开 管理工具>计算机管理>共享文件夹>共享 在相应的共享文件夹上按右键,点停止共享即可,不过机器重新启动后,这些共享又会重新开启的。

默认共享目录 路径和功能

C$ D$ E$ 每个分区的根目录。Win2000 Pro版中,只有Administrator

和Backup Operators组成员才可连接,Win2000 Server版本Server Operatros组也可以连接到这些共享目录ADMIN$ %SYSTEMROOT% 远程管理用的共享目录。它的路径永远都指向Win2000的安装路径,比如 c:\winntFAX$ 在Win2000 Server中,FAX$在fax客户端发传真的时候会到。IPC$ 空连接。IPC$共享提供了登录到系统的能力。

NetLogon 这个共享在Windows 2000 服务器的Net Login 服务在处理登陆域请求时用到

PRINT$ %SYSTEMROOT%\SYSTEM32\SPOOL\DRIVERS 用户远程管理打印机

解决办法:

打开注册表编辑器。REGEDIT

HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\lanmanserver\parameters

在右边建立一个名为AutoShareServer的DWORD键。值为0

3.禁止mp file的产生

mp文件在系统崩溃和蓝屏的时候是一份很有用的查找问题的资料(不然我就照字面意思翻译成垃圾文件了)。然而,它也能够给黑客提供一些敏感信息比如一些应用程序的密码等。要禁止它,打开 控制面板>系统属性>高级>启动和故障恢复 把 写入调试信息 改成无。要用的时候,可以再重新打开它。
4.使用文件加密系统EFS

Windows2000 强大的加密系统能够给磁盘,文件夹,文件加上一层安全保护。这样可以防止别人把你的硬盘挂到别的机器上以读出里面的数据。记住要给文件夹也使用EFS,而不仅仅是单个的文件。 有关EFS的具体信息可以查看

http://www.microsoft.com/windows200...ity/encrypt.asp

5.加密temp文件夹

一些应用程序在安装和升级的时候,会把一些东西拷贝到temp文件夹,但是当程序升级完毕或关闭的时候,它们并不会自己清除temp文件夹的内容。所以,给temp文件夹加密可以给你的文件多一层保护。

6.锁住注册表

在windows2000中,只有administrators和Backup Operators才有从网络上访问注册表的权限。如果你觉得还不够的话,可以进一步设定注册表访问权限,详细信息请参考:

http://support.microsoft.com/suppor...s/Q153/1/83.asp

7.关机时清除掉页面文件

页面文件也就是调度文件,是win2000用来存储没有装入内存的程序和数据文件部分的隐藏文件。一些第三方的程序可以把一些没有的加密的密码存在内存中,页面文件中也可能含有另外一些敏感的资料。 要在关机的时候清楚页面文件,可以编辑注册表

HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Memory Management

把ClearPageFileAtShutdown的值设置成1。

8.禁止从软盘和CD Rom启动系统

一些第三方的工具能通过引导系统来绕过原有的安全机制。如果你的服务器对安全要求非常高,可以考虑使用可移动软盘和光驱。把机箱锁起来扔不失为一个好方法。

9.考虑使用智能卡来代替密码

对于密码,总是使安全管理员进退两难,容易受到 10phtcrack 等工具的攻击,如果密码太复杂,用户把为了记住密码,会把密码到处乱写。如果条件允许,用智能卡来代替复杂的密码是一个很好的解决方法。

10.考虑使用IPSec

正如其名字的含义,IPSec 提供 IP 数据包的安全性。IPSec 提供身份验证、完整性和可选择的机密性。发送方计算机在传输之前加密数据,而接收方计算机在收到数据之后解密数据。利用IPSec可以使得系统的安全性能大大增强。

SF的必须开放端口,极其解决端口安全的方法

传奇服务器开放端口+花生壳+一些必须端口

可以将这些端口使用TCP/IP筛选,只开放这些端口增加安全性,(开设其他服务,端口自己再加入)

TCP/IP筛选端口-> TCP断口

端口7220 .... RunGate 1 端口

端口7210 .... RunGate 2 端口 同时开启3个RunGate

端口7200 .... RunGate 3 端口

端口7100

端口7012

端口6000

端口5600

端口5500

端口5100

端口5000

端口4900

端口3389

端口3372

端口3100

端口3000

端口1027

端口1025

端口0135

\system32\drivers\etc\services 文件中有知名端口和服务的对照表可供参考。具体方法为:

网上邻居>属性>本地连接>属性>internet 协议(tcp/ip)>属性>高级>选项>tcp/ip筛选>属性 打开tcp/ip筛选,添加需要的tcp,协议即可。

我开了3个RunGate端口,解决多个玩家同时登陆访问时会出现7200错误而使服务器突然狂卡,开3个效果比较好。是*(ggggg7原创)

开3个RunGate端口的方法:

RunGate文件夹再复制2份 分别为RunGate1,RunGate2,RunGate3 将里面的Mirgate.ini分别改为GatePort=7200,GatePort=7210,GatePort=7220

DBSrv200文件夹下的!serverinfo.txt改为127.0.0.1 127.0.0.1 7200 127.0.0.1 7210 127.0.0.1 7220

Mir200文件夹下的!servertable.txt改为

1 127.0.0.1 7200

2 127.0.0.1 7210

3 127.0.0.1 7220

然后运行RunGate1,RunGate2,RunGate3 下的3个RunGate.exe

M2Server会提示:

Gate 0 opened

Gate 1 opened

Gate 2 opened

适当的加点防火墙会更好

阅读全文

与如何爬取服务器相关的资料

热点内容
同事刷到女程序员自媒体视频 浏览:569
校验算法的缺点是什么 浏览:717
PHP商品分类功能实现 浏览:330
php取字符串中间 浏览:430
程序员经常用工具 浏览:835
降服主力指标源码主图 浏览:500
python实用库 浏览:692
电脑默认7个文件夹 浏览:11
新唐单片机安装c51后编译错误 浏览:530
红包源码引流神器 浏览:235
学生初中毕业撕书解压 浏览:747
命令方块刷铜点教学 浏览:690
php邮件订阅系统 浏览:997
柱梁底加密箍间距 浏览:30
pythonjavascript对比 浏览:741
什么动漫app是大陆字幕 浏览:286
android查看activity栈 浏览:918
x86固件编译 浏览:166
安卓下什么可以看微博动图 浏览:412
永辉生活app注册有什么优惠吗 浏览:411