① 怎麼用php採集網站數據
簡單的分了幾個步驟:
1、確定採集目標
2、獲取目標遠程頁面內容(curl、file_get_contents)
3、分析頁面html源碼,正則匹配你需要的內容(preg_match、preg_match_all),這一步最為重要,不同頁面正則匹配規則不一樣
4、入庫
② PHP採集網頁中指定的內容
你如果是單個頁面的話不需要正規表達式,只要找到自己需要的部分看看前面和後面有什麼唯一性的標識,截取出來就可以了。
③ PHP採集的問題
<?php
$con .= file_get_contents("http://it.sohu.com/itguonei.shtml");
$preg = "#<h1>·<a href='(.*)' target='_blank'>(.*)</a><span>#";
preg_match($preg, $con, $arr);
$v=$arr[1];
$txt=$arr[2];
echo "<a href=$v>".$v."</a> ".$txt."<br>";
?>
另外做採集可以考慮PHPQuery 這個是用php實現JQuery常用的功能。
④ php使用3種方法實現數據採集 什麼叫採集
下面的php代碼可以將HTML表格的每行每列轉為數組,採集表格數據
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 標記 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字元 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>
⑤ PHP採集數據處理
$userNameSQL = "select * from user where userName='userName'";
這邊有錯,改為
$userNameSQL = "select * from user where userName='$userName'";
⑥ 用PHP進行數據採集
$strPreg = "|<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>|U";
搞定了才發現你都沒懸賞分。。。
⑦ PHP中怎樣實現文章採集
只舉例說明,生產環境你自己根據情景去搞
$url = 'www.domain.com';
$content = file_get_content($url);//抓取網頁全部內容
preg_match( string pattern, string subject [, array matches ] );//正則獲取自己需要的內容
入庫~
完事了。。。
當然,情形復雜,例如需要登錄,採集目標限制等問題,這再說...
實際使用的時候,可以直接使用Snoopy類,提供好多方法供使用,比自己去造輪子要安全,當然,你可以在她的基礎上再去造輪子~~~
⑧ 求帶登錄的網站採集php源碼或思路
獲取鏈接的數據以後,加個判斷:如果需要登陸 ,則使用php的curl函數來模擬post;不需要登陸則直接採集。
⑨ php自動採集如何實現
PHP自動採集能一定程度的實現,部分網站的頁面結構存在一定的共通點,比如文章內容頁的標題,不少網站是標記在<h1>里的,實在不行,就採集<title>,絕對能採到,然後、過濾掉title裡面的網站名稱。
採集文章內容就相對麻煩,但是通過層層分析,層層剝離,一定要進行大量的網站分析,寫出多套通用性比較強的採集規則,程序在採集的時候也要進行大量分析。
有幾點是可以肯定的,那就是絕對不能要求採集效果達到為某個網站單獨寫採集規則來的效果好,也絕對不是能匹配任意網站,頂多能匹配部分網站。
⑩ php採集數據怎麼做啊
用fopen/file/file_get_contents/curl之類的函數將遠程頁面獲得內容, 採用正則或過濾之類的獲得自己所需要的東西, 最好寫入相應的資料庫保存起來。