① 求 php 循環執行大量數據 解決辦法。
你用網頁的方式,讓人點擊,伺服器採集,簡直是弱爆了。每個人的點擊循環1000次,來個100人同時點,你要用的是普通的虛擬機就不行了。
最好是換種方式實現,不要通過網頁進行採集。
可以非常簡單的在資料庫的表,創建一個採集隊列,後台執行一個crontab的計劃任務,去完成隊列里的採集任務。
② php循環採集出文章列表
在你的代碼基礎上稍微修改了一下 如下
<?php
header("Content-type: text/html; charset=gb2312");
$url = "http://top.qidian.com/Book/TopDetail.aspx?TopType=6"; //目標站
$fp = @fopen($url, "r") or die("超時");
$fcontents = file_get_contents($url);
preg_match_all("/ <a target=\"_blank\" href=\"http:\/\/www.qidian.com\/Book\/(.*?)\.aspx\"/is", $fcontents, $regs);
print_r($regs[0]);
?>
③ 火車頭採集器循環採集,利用PHP插件如何判斷是否是當天信息
那它的日期和今天對比不就行了嗎
④ php採集多個tr中的內容如何做
<?php
$dom = new DOMDocument();
$dom->loadHTML($html);
$props = array();
$xpath = new DOMXPath($dom);
$trNodes = $xpath->query("//tr");
foreach($trNodes as $trNode) {
$thNodes = $xpath->query("./th");
$tdNodes = $xpath->query("./td");
if($thNodes->length == 0 || $tdNodes->length == 0) continue;
props[$thNodes->item(0)->nodeValue] = $tdNodes->item(0)->nodeValue;
}
var_mp($props);
⑤ php使用3種方法實現數據採集 什麼叫採集
下面的php代碼可以將HTML表格的每行每列轉為數組,採集表格數據
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 標記 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字元 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>
⑥ php如何採集多頁內容
三段視頻教程,採集好資料庫的,都一樣
http://www.php100.com/html/shipinjiaocheng/PHP100shipinjiaocheng/2010/0509/4472.html
http://www.php100.com/html/shipinjiaocheng/PHP100shipinjiaocheng/2010/0517/4530.html
http://www.php100.com/html/shipinjiaocheng/PHP100shipinjiaocheng/2010/0524/4572.html
⑦ php curl 大量數據採集
這個需要配合js,打開一個html頁面,首先js用ajax請求頁面,返回第一個頁面信息確定處理完畢(ajax有強制同步功能),ajax再訪問第二個頁面。(或者根據伺服器狀況,你可以同時提交幾個URL,跑幾個相同的頁面)
參數可以由js產生並傳遞url,php後台頁面根據URL抓頁面。然後ajax通過php,在資料庫或者是哪裡設一個標量,標明檢測到哪裡。由於前台的html頁面執行多少時候都沒問題,這樣php的內存限制和執行時間限制就解決了。
因為不會浪費大量的資源用一個頁面來跑一個瞬間500次的for循環了。(你的500次for循環死了原因可能是獲取的數據太多,大過了php限制的內存)
不過印象中curl好像也有強制同步的選項,就是等待一個抓取後再執行下一步。但是這個500次都是用一個頁面線程處理,也就是說肯定會遠遠大於30秒的默認執行時間。
⑧ thinkphp5 採集聚合新聞api介面數據怎麼循環入庫
1 TP5為API開發做了很多的優化和支持
2 現代的開發模式更傾向於API方式的後台開發 前後端完全分離
⑨ php採集大數據的方案
1、建議你讀寫數據和下載圖片分開,各用不同的進程完成。
比如說,取數據用get-data.php,下載圖片用get-image.php。
2、多進程的話,php可以簡單的用pcntl_fork()。這樣可以並發多個子進程。
但是我不建議你用fork,我建議你安裝一個gearman worker。這樣你要並發幾個,就啟幾個worker,寫代碼簡單,根本不用在代碼里考慮thread啊,process等等。
3、綜上,解決方案這樣:
(1)安裝gearman worker。
(2)寫一個get-data.php,在crontab里設置它每5分鍾執行一次,只負責讀數據,然後把讀回來的數據一條一條的扔到 gearman worker的隊列里;
然後再寫一個處理數據的腳本作為worker,例如叫process-data.php,這個腳本常駐內存。它作為worker從geraman 隊列里讀出一條一條的數據,然後跟你的資料庫老數據比較,進行你的業務邏輯。如果你要10個並發,那就啟動10個process-data.php好了。處理完後,如果圖片地址有變動需要下載圖片,就把圖片地址扔到 gearman worker的另一個隊列里。
(3)再寫一個download-data.php,作為下載圖片的worker,同樣,你啟動10個20個並發隨便你。這個進程也常駐內存運行,從gearman worker的圖片數據隊列里取數據出來,下載圖片
4、常駐進程的話,就是在代碼里寫個while(true)死循環,讓它一直運行好了。如果怕內存泄露啥的,你可以每循環10萬次退出一下。然後在crontab里設置,每分鍾檢查一下進程有沒有啟動,比如說這樣啟動3個process-data worker進程:
* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php >> /dev/null 2>&1'
* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php >> /dev/null 2>&1'
* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php >> /dev/null 2>&1'
不知道你明白了沒有
⑩ php採集代碼循環問題
header("Content-type:text/html;charset=gb2312");
$url="http://top.qidian.com/Book/TopDetail.aspx?TopType=6";//目標站
$fp=@fopen($url,"r")ordie("超時");
$fcontents=file_get_contents($url);
preg_match_all("/<atarget="_blank"href="(http://www.qidian.com/Book/(.*?).aspx)"/is",$fcontents,$regs);
foreach($regs[1]as$key=>$item)
{
echo"<ahref="{$item}">{$item}</a>","<br/>";
}
die();
這樣子修改就能得到你想要的結果了。