導航:首頁 > 配伺服器 > 如何看伺服器有沒有禁蜘蛛

如何看伺服器有沒有禁蜘蛛

發布時間:2022-04-25 08:40:14

㈠ 怎麼查看蜘蛛有沒有來過網站

網站伺服器上有個logfile文件夾,裡面的文件就是記錄你網站訪問記錄的,你看到spider 就表明網路蜘蛛來過了,還包括網路蜘蛛來的時間信息!還可以通過網路站長工具里有蜘蛛的訪問統計。

㈡ 伺服器對網站有多少影響 網站為什麼看不到蜘蛛

你要檢查伺服器穩定性夠不夠高,網站內容質量夠不夠高,蜘蛛並不是什麼時間都會來訪你的網站,只有你的網站打開時間夠快,而且不斷產生新有價值的網頁,蜘蛛才會加快對你網站的抓取頻率。通過日誌文件,便可以看到蜘蛛來訪你網站的記錄,是爬行了還是被抓取成功了。

㈢ 怎麼看伺服器網站日誌分析是否被蜘蛛爬取

看網站日誌是否有搜索引擎的蜘蛛來網站抓取過,看返回的狀態碼是200還是其他,如果返回200說明抓取成功,如果返回404說明頁面錯誤,或者頁面不存在,就需要做301永久重定向或者302暫時重定向。
一般抓取成功後被搜索引擎放出來的時間也會晚點,一般谷歌機器人放出來的比較快,最快可秒殺,但是網路反應就慢了,最快也要一周左右,不過11月份網路演算法調整後,放出來的速度還是很快的。

㈣ 怎樣查看蜘蛛是不是來抓取你的網站了

首先,去網站的空間後台下載伺服器日誌。然後,通過分析日誌就可以看到網路蜘蛛是否來抓取過你的網站。最後,根據蜘蛛的抓取頻率、時間來改善網站獲得更好的排名~

㈤ 怎麼查看蜘蛛抓取情況

網路用於抓取網頁的程序叫做Baispider - 網路蜘蛛,我們查看網站被網路抓取的情況主要是分析,網站日誌里網路蜘蛛Baispider的活躍性:抓取頻率,返回的HTTP狀態碼。

過FTP,在網站根目錄找到一個日誌文件,文件名一般包含log,下載解壓裡面的記事本,這即是網站的日誌,記錄了網站被訪問和操作的情況。因為各個伺服器和主機的情況不同,不同的主機日誌功能記錄的內容不同,有的甚至沒有日誌功能。


61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baispider+(+http://www..com/search/spider.htm)"

/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個頁面。
200 代表成功抓取。
8450 代表抓取了8450個位元組。
如果你的日誌里格式不是如此,則代表日誌格式設置不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里網路蜘蛛抓取次數來獲知。抓取頻率並沒有一個規范的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。當然,我們希望網路蜘蛛每日抓取的次數越多越好。


文章需要經常更新
蜘蛛就和一個人一樣,想要吸引它,必須要有最新鮮的內容。如果都是一些老舊的內容,誰還會還看呢?每天或者數天一篇新的原創文章能夠很好地勾引蜘蛛,同時也能夠讓更多的訪客來你的網站上留下足跡。

頁面簡潔,保證打開速度
一個干凈、簡潔的頁面能夠比一個滿是廣告、無用信息的頁面更頁面更能夠吸引用戶,這對於蜘蛛也是。越少的需要抓取的內容,越快的打開速度,能夠保證蜘蛛的高效率抓取,蜘蛛來訪的頻率也會越高。

內部鏈接結構良好,無死鏈和大量重復鏈
蜘蛛的爬行除了抓取頁面,還通過頁面上的鏈接進行「行走」。如果正好步入了一個死鏈,正如同步入深淵一般,蜘蛛可能需要一段時間之後才能繼續抓取。同樣的,如果有大量的重復鏈接,一直爬到這個頁面上去,蜘蛛就會認為這個頁面沒有太大的意義,甚至會停止爬行。

為蜘蛛指路——建設網站地圖
網站地圖就好比是一個指向標,唯有清晰明了的指向標才能指引蜘蛛的去向。方便快捷的道路也會勾引來更多的蜘蛛。

每個頁面都有完整的meta標簽
擁有完整的meta標簽可以更快地告訴蜘蛛這個頁面里有什麼,提高蜘蛛的抓取效率。這主要包括keywords(關鍵詞)和description(描述),如果想讓meta更完美,可以加上generator(作者)、robots(蜘蛛)、right(版權)等等。

確保伺服器能夠正常運作,避免宕機
在建網站之前,就要考慮好選擇一個穩定的伺服器,寧可多花點錢,也不要貪小便宜。穩定的運作能夠使蜘蛛更好地進行抓取並不中斷,還能容納下更多勾引來的蜘蛛。

確保伺服器返回信息正常
千萬不要限制伺服器返回信息,這對於蜘蛛來說很重要。一旦無法獲取到正確的返回信息,蜘蛛將會迷失方向。

監測蜘蛛的爬行
可以利用日誌知道蜘蛛正在抓取哪些頁面,知己知彼,方能根據蜘蛛的喜好對頁面進行調整,以勾引來更多的蜘蛛。

利用Google管理員工具查看爬行速度
可以利用Google專門為站長提供的管理員工具對蜘蛛的爬行速度進行查看,合理分配資源,以達到更高的抓取速度和勾引更多的蜘蛛。

增加網站的外鏈
這一條和第三點相類似,因為蜘蛛的通過鏈接爬行。別的網站上也有蜘蛛,就可以想辦法將蜘蛛勾引過來,這辦法就是在網站上發外鏈。

㈥ 網站一直沒有蜘蛛來爬,能不能幫我看下到底問題在哪

您好!
遇到這樣的問題,情況只可能倆種:
一、你屏蔽蜘蛛了
我們屏蔽了蜘蛛,蜘蛛當然不可能來抓取我們的網站拉。
1.首先我們要檢測自己的網站robots.txt文件,看看文件的書寫是否正確,是否有大小寫混亂的情況出現,是否建站初期的時候有屏蔽所有蜘蛛的爬行的指令忘記修改了。正常情況下robots.txt檢測的事情就直接交給站長工具檢查就可以了
2.伺服器商是否屏蔽了蜘蛛的爬行。別認為這事不可能,當初主機屋,就誤把網路蜘蛛當成黑客攻擊給屏蔽了,不懂導致多少人被K站。如果是主機商屏蔽了蜘蛛的爬行盡早換主機吧,時間等不起。
二、你被蜘蛛屏蔽了
1.查看自己的域名以前的主人,看看域名以前是否做了違法的站點。如果是的話那麼蜘蛛不爬是完全有道理的,就好比Maas以前論壇那個域名以前是做liuhecai站的。至今搜狗和谷歌蜘蛛壓根沒來過。
2.查看下自己同伺服器的站點,是否有非常嚴重違規的作弊行為,若有的話,搜索引擎很有可能屏蔽整條IP的站點,為了自己的網站發展健康還是選擇獨立IP的伺服器吧。
如果發現自己網站的爬行日誌壓根沒出現蜘蛛來訪,那麼我們就應該考慮自己的站點是否出現以上的情況,應該及時的清理。然後向相關的搜索引擎提交,或者利用高質量的外鏈引導蜘蛛爬行。

㈦ 怎樣查看網站伺服器是否阻擋搜索蜘蛛

一般的網站是沒有這個設置的,查看網站的robots.txt文件就可以了。
淘寶的就是全面屏蔽網路的。

--------------------
一般伺服器不能,只有在網站裡面設置才可以的。再說這樣的伺服器誰要啊。

㈧ 如何查看自己網站是否有蜘蛛來過

什麼是spider?
spider是網路搜索引擎的一個自動程序。它的作用是訪問互聯網上的html網頁,建立索引資料庫,使用戶能在網路搜索引擎中搜索到您網站的網頁。

spider對一個網站伺服器造成的訪問壓力如何?
spider會自動根據伺服器的負載能力調節訪問密度。在連續訪問一段時間後,spider會暫停一會,以防止增大伺服器的訪問壓力。所以在一般情況下,spider對您網站的伺服器不會造成過大壓力。

為什麼spider不停的抓取我的網站?
對於您網站上新產生的或者持續更新的頁面,spider會持續抓取。此外,您也可以檢查網站訪問日誌中spider的訪問是否正常,以防止有人惡意冒充spider來頻繁抓取您的網站。 如果您發現spider非正常抓取您的網站,請反饋至[email protected],並請盡量給出spider對貴站的訪問日誌,以便於我們跟蹤處理。

我不想我的網站被spider訪問,我該怎麼做?
spider遵守互聯網robots協議。您可以利用robots.txt文件完全禁止spider訪問您的網站,或者禁止spider訪問您網站上的部分文件。 注意:禁止spider訪問您的網站,將使您的網站上的網頁,在網路搜索引擎以及所有網路提供搜索引擎服務的搜索引擎中無法被搜索到。
關於robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法

為什麼我的網站已經加了robots.txt,還能在網路搜索出來?
因為搜索引擎索引資料庫的更新需要時間。雖然spider已經停止訪問您網站上的網頁,但網路搜索引擎資料庫中已經建立的網頁索引信息,可能需要二至四周才會清除。 另外也請檢查您的robots配置是否正確。

網路蜘蛛在robots.txt中的名字是什麼?
「spider」全部為小寫字母。

spider多長時間之後會重新抓取我的網頁?
網路搜索引擎每周更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間,spider會重新訪問和更新一個網頁。

知道了什麼是網路蜘蛛,那麼怎麼才能知道蜘蛛是否來過你的站?這個可以從你伺服器或者虛擬主機的日誌中看出來,比如我用的虛擬主機的完整使用日誌中有這樣的記錄:

220.181.38.198 - - [11/Nov/2007:04:28:29 +0800] "GET / HTTP/1.1" 200 61083 "-" "Baispider+(+http://www..com/search/spider.htm)"這就說明網路蜘蛛來過我的站了,如果你還想知道有沒有其它搜索引擎的蜘蛛來過你的站,你可以在日誌文件中搜索「spider」這個詞,或者搜索蜘蛛的IP,我的就查到sogou也來過我的站,IIS日誌與Apache的日誌是一樣的,都可以查到。

各類蜘蛛IP收集,不一定完全准確。
序號 IP 注釋
1 202.106.186.* 163蜘蛛
2 202.108.36.* 163蜘蛛
3 202.108.44.* 163蜘蛛
4 202.108.45.* 163蜘蛛
5 202.108.5.* 163蜘蛛
6 202.108.9.* 163蜘蛛
7 220.181.12.* 163蜘蛛
8 220.181.13.* 163蜘蛛
9 220.181.14.* 163蜘蛛
10 220.181.15.* 163蜘蛛
11 220.181.28.* 163蜘蛛
12 220.181.31.* 163蜘蛛
13 222.185.245.* 163蜘蛛

14 202.165.100.* 3721蜘蛛

15 220.181.19.* 網路蜘蛛
16 159.226.50.* 網路蜘蛛
17 202.108.11.* 網路蜘蛛
18 202.108.22.* 網路蜘蛛
19 202.108.23.* 網路蜘蛛
20 202.108.249.* 網路蜘蛛
21 202.108.250.* 網路蜘蛛
22 61.135.145.* 網路蜘蛛
23 61.135.146.* 網路蜘蛛

24 64.124.85.* become.com

25 61.151.243.* china蜘蛛

26 202.165.96.* gais.cs.ccu.e.tw

27 216.239.33.* google蜘蛛
28 216.239.35.* google蜘蛛
29 216.239.37.* google蜘蛛
30 216.239.39.* google蜘蛛
31 216.239.51.* google蜘蛛
32 216.239.53.* google蜘蛛
33 216.239.55.* google蜘蛛
34 216.239.57.* google蜘蛛
35 216.239.59.* google蜘蛛
36 64.233.161.* google蜘蛛
37 64.233.189.* google蜘蛛
38 66.102.11.* google蜘蛛
39 66.102.7.* google蜘蛛
40 66.102.9.* google蜘蛛
41 66.249.64.* google蜘蛛
42 66.249.65.* google蜘蛛
43 66.249.66.* google蜘蛛
44 66.249.71.* google蜘蛛
45 66.249.72.* google蜘蛛
46 72.14.207.* google蜘蛛

47 61.135.152.* iask蜘蛛

48 65.54.188.* msn蜘蛛
49 65.54.225.* msn蜘蛛
50 65.54.226.* msn蜘蛛
51 65.54.228.* msn蜘蛛
52 65.54.229.* msn蜘蛛
53 207.46.98.* msn蜘蛛
54 207.68.157.* msn蜘蛛

55 194.224.199.* noxtrumbot

56 220.181.8.* Outfox
57 221.239.209.* Outfox

58 217.212.224.* psbot

59 219.133.40.* QQ蜘蛛
60 202.96.170.* QQ蜘蛛
61 202.104.129.* QQ蜘蛛
62 61.135.157.* QQ蜘蛛
63 219.142.118.* sina蜘蛛
64 219.142.78.* sina蜘蛛

65 61.135.132.* sohu蜘蛛
66 220.181.26.* sohu蜘蛛
220.181.19.*

67 61.135.158.* tom蜘蛛

68 66.196.90.* yahoo蜘蛛
69 66.196.91.* yahoo蜘蛛
70 68.142.249.* yahoo蜘蛛
71 68.142.250.* yahoo蜘蛛
72 68.142.251.* yahoo蜘蛛
73 202.165.102.* yahoo中國蜘蛛
74 202.160.178.* yahoo中國蜘蛛
75 202.160.179.* yahoo中國蜘蛛
76 202.160.180.* yahoo中國蜘蛛
77 202.160.181.* yahoo中國蜘蛛
78 202.160.183.* yahoo中國蜘蛛
79 72.30.101.* yahoo蜘蛛
80 72.30.102.* yahoo蜘蛛
81 72.30.103.* yahoo蜘蛛
82 72.30.104.* yahoo蜘蛛
83 72.30.107.* yahoo蜘蛛
84 72.30.110.* yahoo蜘蛛
85 72.30.111.* yahoo蜘蛛
86 72.30.128.* yahoo蜘蛛
87 72.30.129.* yahoo蜘蛛
88 72.30.131.* yahoo蜘蛛
89 72.30.133.* yahoo蜘蛛
90 72.30.134.* yahoo蜘蛛
91 72.30.135.* yahoo蜘蛛
92 72.30.216.* yahoo蜘蛛
93 72.30.226.* yahoo蜘蛛
94 72.30.252.* yahoo蜘蛛
95 72.30.97.* yahoo蜘蛛
96 72.30.98.* yahoo蜘蛛
97 72.30.99.* yahoo蜘蛛
98 74.6.74.* yahoo蜘蛛

99 202.108.4.* 中搜蜘蛛
100 202.108.4.* 中搜蜘蛛
101 202.108.33.* 中搜蜘蛛
102 202.96.51.* 中搜蜘蛛
103 219.142.53.* 中搜蜘蛛

㈨ 怎麼查看網站被百度蜘蛛抓取的情況

網路用於抓取網頁的程序叫做Baispider - 網路蜘蛛,我們查看網站被網路抓取的情況主要是分析,網站日誌里網路蜘蛛Baispider的活躍性:抓取頻率,返回的HTTP狀態碼。
查看日誌的方式:
通過FTP,在網站根目錄找到一個日誌文件,文件名一般包含log,下載解壓裡面的記事本,這即是網站的日誌,記錄了網站被訪問和操作的情況。
因為各個伺服器和主機的情況不同,不同的主機日誌功能記錄的內容不同,有的甚至沒有日誌功能。
日誌內容如下:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baispider+(+http://www..com/search/spider.htm)"
分析:
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 這個頁面。
200 代表成功抓取。
8450 代表抓取了8450個位元組。
如果你的日誌里格式不是如此,則代表日誌格式設置不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里網路蜘蛛抓取次數來獲知。抓取頻率並沒有一個規范的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。當然,我們希望網路蜘蛛每日抓取的次數越多越好。

㈩ 請教,怎麼樣檢測,伺服器是不是屏蔽了蜘蛛的IP呢

一、網路設置的問題 這種原因比較多出現在需要手動指定IP、網關、DNS伺服器聯網方式下,及使用代理伺服器上網的。仔細檢查計算機的網路設置。 二、DNS伺服器的問題 當IE無法瀏覽網頁時,可先嘗試用IP地址來訪問,如用 Bbs.winzheng.com 的 ,如果可以訪問,那麼應該是DNS的問題,造成DNS的問題可能是連網時獲取DNS出錯或DNS伺服器本身問題,這時你可以手動指定DNS服務(地址可以是你當地ISP提供的DNS伺服器地址,也可以用其它地方可正常使用DNS伺服器地址。)在網路的屬性里進行,(控制面板—網路和拔號連接—本地連接—右鍵屬性—TCP/IP協議—屬性—使用下面的DNS伺服器地址)。不同的ISP有不同的DNS地址。有時候則是路由器或網卡的問題,無法與ISP的DNS服務連接,這種情況的話,可把路由器關一會再開,或者重新設置路由器。還有一種可能,是本地DNS緩存出現了問題。為了提高網站訪問速度,系統會自動將已經訪問過並獲取IP地址的網站存入本地的DNS緩存里,一旦再對這個網站進行訪問,則不再通過DNS伺服器而直接從本地DNS緩存取出該網站的IP地址進行訪問。所以,如果本地DNS緩存出現了問題,會導致網站無法訪問。可以在「運行」中執行ipconfig /flushdns來重建本地DNS緩存。 三、IE瀏覽器本身的問題 當IE瀏覽器本身出現故障時,自然會影響到瀏覽了;或者IE被惡意修改破壞也會導致無法瀏覽網頁。這時可以嘗試用「黃山IE修復專家」來修復(建議到安全模式下修復),或者重新IE(如重裝IE遇到無法重新的問題,可參考:附一解決無法重裝IE) 四、網路防火牆的問題 如果網路防火牆設置不當,如安全等級過高、不小心把IE放進了阻止訪問列表、錯誤的防火牆策略等,可嘗試檢查策略、降低防火牆安全等級或直接關掉試試是否恢復正常。 五、網路協議和網卡驅動的問題 IE無法瀏覽,有可能是網路協議(特別是TCP/IP協議)或網卡驅動損壞導致,可嘗試重新網卡驅動和網路協議。 六、HOSTS文件的問題 HOSTS文件被修改,也會導致瀏覽的不正常,解決方法當然是清空HOSTS文件里的內容。 七、系統文件的問題 當與IE有關的系統文件被更換或損壞時,會影響到IE正常的使用,這時可使用SFC命令修復一下,WIN98系統可在「運行」中執行SFC,然後執行掃描;WIN2000/XP/2003則在「運行」中執行sfc /scannow嘗試修復。 其中當只有IE無法瀏覽網頁,而QQ可以上時,則往往由於winsock.dll、wsock32.dll或wsock.vxd(VXD只在WIN9X系統下存在)等文件損壞或丟失造成,Winsock是構成TCP/IP協議的重要組成部分,一般要重裝TCP/IP協議。但xp開始集成TCP/IP協議,所以不能像98那樣簡單卸載後重裝,可以使用 netsh 命令重置 TCP/IP協議,使其恢復到初次安裝操作系統時的狀態。具體操作如下: 點擊「開始 運行」,在運行對話框中輸入「CMD」命令,彈出命令提示符窗口,接著輸入「netsh int ip reset c:\resetlog.txt」命令後會回車即可,其中「resetlog.txt」文件是用來記錄命令執行結果的日誌文件,該參數選項必須指定,這里指定的日誌文件的完整路徑是「c:\resetlog.txt」。執行此命令後的結果與刪除並重新安裝 TCP/IP 協議的效果相同。 小提示:netsh命令是一個基於命令行的腳本編寫工具,你可以使用此命令配置和監視Windows 系統,此外它還提供了互動式網路外殼程序介面,netsh命令的使用格式請參看幫助文件(在令提示符窗口中輸入「netsh/?」即可)。 第二個解決方法是修復以上文件,WIN9X使用SFC重新提取以上文件,WIN2000/XP/2003使用sfc /scannow命令修復文件,當用sfc /scannow無法修復時,可試試網上發布的專門針對這個問題的修復工具WinSockFix. 八、殺毒軟體的實時監控問題 這倒不是經常見,但有時的確跟實時監控有關,因為現在殺毒軟體的實時監控都添加了對網頁內容的監控。舉一個實例:KV2005就會在個別的機子上會導致IE無法瀏覽網頁(不少朋友遇到過),其具體表現是只要打開網頁監控,一開機上網

閱讀全文

與如何看伺服器有沒有禁蜘蛛相關的資料

熱點內容
linux查看memory 瀏覽:449
雲南省伺服器日誌雲伺服器 瀏覽:821
安卓好記星平板怎麼下載其他軟體 瀏覽:255
腰部脊椎壓縮性骨折怎麼躺比較好 瀏覽:34
佳木斯程序員 瀏覽:780
快樂解壓玩具 瀏覽:47
掃碼送五百購物券的app是哪個 瀏覽:187
網吧怎麼找wegame的文件夾 瀏覽:130
酷狗鈴聲安卓鈴聲怎麼設置 瀏覽:600
美團程序員蹲位 瀏覽:92
伺服器如何在裡面一直放歌 瀏覽:527
解壓縮軟體mac版 瀏覽:612
位元組跳動程序員實習生面試流程 瀏覽:615
哪個音樂app 瀏覽:725
pdf編譯器 瀏覽:744
組織與胚胎學pdf 瀏覽:757
程序員在航天領域 瀏覽:260
單位加密文件打不開在哪裡設置了 瀏覽:805
樊川集pdf 瀏覽:769
如何進入網站伺服器終端 瀏覽:745