php網頁抓取工具_在php中wget怎麼用急在線等

㈠免費網站抓取工具有哪些抓包工具

『壹』免費的網頁抓圖工具，能抓整個網頁版面的。
我最常用的就兩個，一個最方便，一個可以把整個網頁全部抓下來（而不是屏幕顯示部分）
一個你下載一個「考拉寶」工具條，非常方便，視頻、FLASH、圖片、網頁都很好
另一個，不用工具，直接使用「綠色瀏覽器」，只需要另存為圖片格式就可以了
http://www.5igb.com/
『貳』有哪些抓包工具
第五名：TCPDump（網路類）
根據白帽子黑客抓包工具的使用率，將TCPmp排在第五的位置。
第一名：BurpSuite (web 報文)
BurpSuite是現在Web安全滲透的必備工具。
它是一個集成平台，平台中匯集了可以用來攻擊web應用的工具，這些工具有很多介面，共享一個擴展性比較強的框架。
『叄』 mac 電腦有哪些網頁的抓取工具
mac 網頁抓取工具：celery，騰訊碼農，偽全棧工程師。
以celery為例來說明：
Celery介紹

celery(芹菜)是一個非同步任務隊列/基於分布式消息傳遞的作業隊列。
它側重於實時操作，但對調度支持也很好。
celery用於生產系統每天處理數以百萬計的任務。
celery是用Python編寫的，但該協議可以在任何語言實現。它也可以用其他語言通過webhooks實現。
目前已知有php/ruby/nodejs的實現
安裝Celery
#安裝celery $ pip install celery #安裝時區的模塊，不然會有時間慢8小時的問題 $ pip install pytz

創建一個簡單「任務」（Task）
在這個教程里，我們將創建一個簡單的「任務」（Task） —— 把兩個數加起來。通常，我們在 Python 的模塊中定義「任務」。
按照慣例，我們將調用模塊 file:tasks.py，看起來會像這個樣子：
file:tasks.py
from celery.task import task @task def add(x, y): return x + y

此時， @task 裝飾器實際上創建了一個繼承自 :class:~celery.task.base.Task 的「類」（class）。除非需要修改「任務類」的預設行為，否則我們推薦只通過裝飾器定義「任務」（這是我們推崇的最佳實踐）。
seealso: 關於創建任務和任務類的完整文檔可以在 ../userguide/tasks 中找到。
配置
Celery 使用一個配置模塊來進行配置。這個模塊預設北命名為 :file:celeryconfig.py。
為了能被 import，這個配置模塊要麼存在於當前目錄，要麼包含在 Python 路徑中。
同時，你可以通過使用環境變數 CELERY_CONFIG_MODULE 來隨意修改這個配置文件的名字。
現在來讓我們創建配置文件 celeryconfig.py.
配置如何連接 broker（例子中我們使用 RabbitMQ）: BROKER_URL = "amqp:''guest:guest@localhost :5672''"
定義用於存儲元數據（metadata）和返回值（return values）的後端: CELERY_RESULT_BACKEND = "amqp"
AMQP 後端預設是非持久化的，你只能取一次結果（一條消息）。
可以閱讀 :ref:conf-result-backend 了解可以使用的後端清單和相關參數。
最後，我們列出 worker 需要 import 的模塊，包括你的任務。
我們只有一個剛開始添加的任務模塊 :file:tasks.py::
CELERY_IMPORTS = ("tasks", )

這就行了。
你還有更多的選項可以使用，例如：你期望使用多少個進程來並行處理（:setting:CELERY_CONCURRENCY 設置），或者使用持久化的結果保存後端。可以閱讀 :ref:configuration 查看更多的選項。
note:
你可以也使用 $ celery -A tasks worker --loglevel=info

運行 worker 伺服器
為了方便測試，我們將在前台運行 worker 伺服器，這樣我們就能在終端上看到 celery 上發生的事情:
$ celeryd --loglevel=INFO

在生產環境中，也許你希望將 worker 在後台以守護進程的方式運行。如果你希望這么做，你可以利用平台或者類似於 supervisord_ (查閱 :ref:daemonizing 以獲得更多信息）的工具來實現。
可以通過下列命令行獲得完整的命令參數清單:
$ celeryd --help

supervisord: [[http://supervisord.org]]
執行任務（task）
我們通過調用 class 類的 ~celery.task.base.Task.delay 方法執行任務。
~celery.task.base.Task.apply_async 方法一個非常方便的方法，通過這個方法我們可以充分控制控制任務執行的參數（參見 :ref:guide-executing）。
>>> from tasks import add >>> add.delay(4, 4)

此時，任務已經被發送到了消息 broker。直到有 worker 伺服器取走並執行了這個任務，否則 Broker 將一直保存這個消息。
現在就可以使用任務返回類 ~celery.result.AsyncResult 來查看 worker 的日誌，看看到底發生了什麼。如果配置了一個結果存儲類 ~celery.result.AsyncResult 來保存任務狀態，任務執行完畢可獲得返回值；任務執行失敗則可獲得異常/回調等信息。
『肆』網頁圖片抓取，抓取淘寶圖片的工具有哪些
比如固喬電商圖片助手，就能抓取淘寶上的寶貝圖片了。
『伍』求好用的數據抓取軟體，各種格式的網頁都能抓取的。
我最近買了一套數據抓取軟體powercap，加密網站數據也能抓，也是別人推薦的，有試用版本的，你可以先試試。
『陸』抓取網頁數據工具用什麼工具可以批量抓取網頁的數據呢
可以用數據採集器軟體，比如八爪魚採集器，操作簡單、功能強大，支持雲採集、定時採集、api介面。網頁上公開的數據幾乎都可以採集下來。
『柒』誰用過免費的數據抓取工具請推薦個謝謝啦
都不知道你想抓去什麼。
flash媒體流可用迅雷抓取
網站探測可用flahsget資源探測器
FLV視頻抓取可用flvSTQ
音頻視頻地址探測可用「影音神探」
數據包封包可用FPE
還有很多，不知道你抓哪個，你先弄清你要抓什麼數據，然後再提問吧。或者可以網路我，Q我。名字都叫甜心經營。

㈡ php 百度知道數據採集

問題其實不難，自己都能寫。給你幾個思路吧：
1.在網路知道中，輸入linux，然後會出現列表。復制瀏覽器地址欄內容。
然後翻頁，在復制地址欄內容，看看有什麼不同，不同之處，就是你要循環分頁的i值。
當然這個是笨方法。
2.使用php的file或者file_get_contents函數，獲取鏈接URL的內容。
3.通過php正則表達式，獲取你需要的3個欄位內容。
4.寫入資料庫。

需要注意的是，網路知道有可能做了防抓取的功能，你剛一抓幾個頁面，可能會被禁止。
建議也就抓10頁數據。

其實不難，你肯定寫的出來。還有，網上應該有很多抓取工具，你找找看，然後將抓下來的數據
在做分析。寫入資料庫。

㈢在php中wget怎麼用，急，在線等。

在php中，wget還是用到的比較多的，因為有時候會抓一下資源或者圖片等等，這個時候file_get_contents就不大好用了，而且wget可以設置抓取的次數，時間等等，這些都是file_get_contents所不具備的，具體wget的參數我就不說了，網上多的是，估計你也不是想問這個。就只說一下php如果用wget，其實很簡單，wget是shell命令，php如果想要調用直接用exec()函數就好了。
exec("wget -i xxxxx xxxxx");

導航:首頁 > 編程語言 > php網頁抓取工具

php網頁抓取工具

與php網頁抓取工具相關的資料