㈠ php怎麼防止抓包工具
我是做數據採集的,
在我看來,除了輸入驗證碼 , 沒有什麼能對我起到很好的防採集,
一般大的網站都是採用 網頁加入一次性隨機值 ,再有前端JS 生成秘鑰 ,最後一並提交加密了的數據 ,這種沒什麼效果 。對一般的人可以做下防禦 。但是,我只要找出它的JS加密函數 。 使用一個JS伺服器(node.js),或php的 php 改寫的js加密實現過程 ,加密初始值,再模擬發送 。所以,這個也沒什麼多大作用 。
對於驗證碼 ,一般簡單的都可以程序識別 ,復雜的提交到前台讓手動輸入 。再一並發送。 這種用戶體驗不好。 慎行。
總的來說,建議用JS 加密吧 。
但是,還是防禦不了。
我一般用 filefox 的 filebug 或 小提琴工具 。
目前大半年了,沒有破解不了的網站 。
我用我的php程序 ,可以操作你的網站 。實現 用戶操作 我的php程序 ,我的php程序 再去操作源網站 。
你可以去研究下 58同城網 的登錄 。那裡面一堆的加密 。 在我看來都是垃圾代碼 。 我的程序一鍵登錄進去。
㈡ php 百度 知道數據採集
問題其實不難,自己都能寫。給你幾個思路吧:
1.在網路知道中,輸入linux,然後會出現列表。復制瀏覽器地址欄內容。
然後翻頁,在復制地址欄內容,看看有什麼不同,不同之處,就是你要循環分頁的i值。
當然這個是笨方法。
2.使用php的file或者file_get_contents函數,獲取鏈接URL的內容。
3.通過php正則表達式,獲取你需要的3個欄位內容。
4.寫入資料庫。
需要注意的是,網路知道有可能做了防抓取的功能,你剛一抓幾個頁面,可能會被禁止。
建議也就抓10頁數據。
其實不難,你肯定寫的出來。 還有,網上應該有很多抓取工具,你找找看,然後將抓下來的數據
在做分析。寫入資料庫。
㈢ php如何防止網站內容被採集
1、限制IP地址單位時間的訪問次數
分析:沒有哪個常人一秒鍾內能訪問相同網站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的採集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網站的收錄
適用網站:不太依靠搜索引擎的網站
採集器會怎麼做:減少單位時間的訪問次數,減低採集效率
2、屏蔽ip
分析:通過後台計數器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。
弊端:似乎沒什麼弊端,就是站長忙了點
適用網站:所有網站,且站長能夠知道哪些是google或者網路的機器人
採集器會怎麼做:打游擊戰唄!利用ip代理採集一次換一次,不過會降低採集器的效率和網速(用代理嘛)。
3、利用js加密網頁內容
Note:這個方法我沒接觸過,只是從別處看來
分析:不用分析了,搜索引擎爬蟲和採集器通殺
適用網站:極度討厭搜索引擎和採集器的網站
採集器會這么做:你那麼牛,都豁出去了,他就不來采你了
4、網頁里隱藏網站版權或者一些隨機垃圾文字,這些文字風格寫在css文件中
分析:雖然不能防止採集,但是會讓採集後的內容充滿了你網站的版權說明或者一些垃圾文字,因為一般採集器不會同時採集你的css文件,那些文字沒了風格,就顯示出來了。
適用網站:所有網站
採集器會怎麼做:對於版權文字,好辦,替換掉。對於隨機的垃圾文字,沒辦法,勤快點了。
5、用戶登錄才能訪問網站內容
分析:搜索引擎爬蟲不會對每個這樣類型的網站設計登錄程序。聽說採集器可以針對某個網站設計模擬用戶登錄提交表單行為。
適用網站:極度討厭搜索引擎,且想阻止大部分採集器的網站
採集器會怎麼做:製作擬用戶登錄提交表單行為的模塊