导航:首页 > 编程语言 > 采集php

采集php

发布时间:2022-02-09 04:19:47

① 怎么用php采集网站数据

简单的分了几个步骤:
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库

② PHP采集网页中指定的内容

你如果是单个页面的话不需要正规表达式,只要找到自己需要的部分看看前面和后面有什么唯一性的标识,截取出来就可以了。

③ PHP采集的问题

<?php
$con .= file_get_contents("http://it.sohu.com/itguonei.shtml");
$preg = "#<h1>·<a href='(.*)' target='_blank'>(.*)</a><span>#";
preg_match($preg, $con, $arr);
$v=$arr[1];
$txt=$arr[2];
echo "<a href=$v>".$v."</a> ".$txt."<br>";
?>
另外做采集可以考虑PHPQuery 这个是用php实现JQuery常用的功能。

④ php使用3种方法实现数据采集 什么叫采集

下面的php代码可以将HTML表格的每行每列转为数组,采集表格数据
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 标记 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字符 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>

⑤ PHP采集数据处理

$userNameSQL = "select * from user where userName='userName'";

这边有错,改为

$userNameSQL = "select * from user where userName='$userName'";

⑥ 用PHP进行数据采集

$strPreg = "|<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>\s*<td[^>]+>([^<]+)<\/td>|U";

搞定了才发现你都没悬赏分。。。

⑦ PHP中怎样实现文章采集

只举例说明,生产环境你自己根据情景去搞
$url = 'www.domain.com';

$content = file_get_content($url);//抓取网页全部内容
preg_match( string pattern, string subject [, array matches ] );//正则获取自己需要的内容
入库~
完事了。。。
当然,情形复杂,例如需要登录,采集目标限制等问题,这再说...
实际使用的时候,可以直接使用Snoopy类,提供好多方法供使用,比自己去造轮子要安全,当然,你可以在她的基础上再去造轮子~~~

⑧ 求带登录的网站采集php源码或思路

获取链接的数据以后,加个判断:如果需要登陆 ,则使用php的curl函数来模拟post;不需要登陆则直接采集。

⑨ php自动采集如何实现

PHP自动采集能一定程度的实现,部分网站的页面结构存在一定的共通点,比如文章内容页的标题,不少网站是标记在<h1>里的,实在不行,就采集<title>,绝对能采到,然后、过滤掉title里面的网站名称。
采集文章内容就相对麻烦,但是通过层层分析,层层剥离,一定要进行大量的网站分析,写出多套通用性比较强的采集规则,程序在采集的时候也要进行大量分析。
有几点是可以肯定的,那就是绝对不能要求采集效果达到为某个网站单独写采集规则来的效果好,也绝对不是能匹配任意网站,顶多能匹配部分网站。

⑩ php采集数据怎么做啊

用fopen/file/file_get_contents/curl之类的函数将远程页面获得内容, 采用正则或过滤之类的获得自己所需要的东西, 最好写入相应的数据库保存起来。

阅读全文

与采集php相关的资料

热点内容
服务器异常520什么意思 浏览:390
花园最解压的摇椅 浏览:337
手机屏幕旁边变色了怎么办安卓的怎么修 浏览:218
word怎么变成pdf格式 浏览:505
vc60一编译就错误 浏览:458
觉得撒娇很解压 浏览:934
苹果控制点安卓怎么设置 浏览:67
顺丰app里面哪里缴费 浏览:894
鱼池活水能增加密度吗 浏览:245
如何将安卓导入已激活苹果 浏览:501
电脑写程序编译不了 浏览:540
linux限制用户命令 浏览:742
8p咋设置应用加密 浏览:286
我说你这个我听是什么安卓 浏览:23
云计算算程序员吗 浏览:786
vim编译php 浏览:527
如何正确使用国家反诈中心app 浏览:181
编译执行方式的过程 浏览:489
当量计算法的适用条件 浏览:445
arm单片机开发环境 浏览:401