① 怎么用php采集网站数据
简单的分了几个步骤:
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
② PHP采集网页中指定的内容
你如果是单个页面的话不需要正规表达式,只要找到自己需要的部分看看前面和后面有什么唯一性的标识,截取出来就可以了。
③ PHP采集的问题
<?php
$con .= file_get_contents("http://it.sohu.com/itguonei.shtml");
$preg = "#<h1>·<a href='(.*)' target='_blank'>(.*)</a><span>#";
preg_match($preg, $con, $arr);
$v=$arr[1];
$txt=$arr[2];
echo "<a href=$v>".$v."</a> ".$txt."<br>";
?>
另外做采集可以考虑PHPQuery 这个是用php实现JQuery常用的功能。
④ php使用3种方法实现数据采集 什么叫采集
下面的php代码可以将HTML表格的每行每列转为数组,采集表格数据
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 标记 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字符 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>
⑤ PHP采集数据处理
$userNameSQL = "select * from user where userName='userName'";
这边有错,改为
$userNameSQL = "select * from user where userName='$userName'";
⑥ 用PHP进行数据采集
$strPreg = "|<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>|U";
搞定了才发现你都没悬赏分。。。
⑦ PHP中怎样实现文章采集
只举例说明,生产环境你自己根据情景去搞
$url = 'www.domain.com';
$content = file_get_content($url);//抓取网页全部内容
preg_match( string pattern, string subject [, array matches ] );//正则获取自己需要的内容
入库~
完事了。。。
当然,情形复杂,例如需要登录,采集目标限制等问题,这再说...
实际使用的时候,可以直接使用Snoopy类,提供好多方法供使用,比自己去造轮子要安全,当然,你可以在她的基础上再去造轮子~~~
⑧ 求带登录的网站采集php源码或思路
获取链接的数据以后,加个判断:如果需要登陆 ,则使用php的curl函数来模拟post;不需要登陆则直接采集。
⑨ php自动采集如何实现
PHP自动采集能一定程度的实现,部分网站的页面结构存在一定的共通点,比如文章内容页的标题,不少网站是标记在<h1>里的,实在不行,就采集<title>,绝对能采到,然后、过滤掉title里面的网站名称。
采集文章内容就相对麻烦,但是通过层层分析,层层剥离,一定要进行大量的网站分析,写出多套通用性比较强的采集规则,程序在采集的时候也要进行大量分析。
有几点是可以肯定的,那就是绝对不能要求采集效果达到为某个网站单独写采集规则来的效果好,也绝对不是能匹配任意网站,顶多能匹配部分网站。
⑩ php采集数据怎么做啊
用fopen/file/file_get_contents/curl之类的函数将远程页面获得内容, 采用正则或过滤之类的获得自己所需要的东西, 最好写入相应的数据库保存起来。