⑴ php抓取/采集网页信息有哪些好的工具
PHP Simple HTML DOM, 目前兼容最好.
也可以用file_get_content这个函数
⑵ php怎么抓取网页内容,怎么采集某网站上的内容
可以使用curl或者file_get_contents函数
⑶ PHP中怎样实现文章采集
只举例说明,生产环境你自己根据情景去搞
$url = 'www.domain.com';
$content = file_get_content($url);//抓取网页全部内容
preg_match( string pattern, string subject [, array matches ] );//正则获取自己需要的内容
入库~
完事了。。。
当然,情形复杂,例如需要登录,采集目标限制等问题,这再说...
实际使用的时候,可以直接使用Snoopy类,提供好多方法供使用,比自己去造轮子要安全,当然,你可以在她的基础上再去造轮子~~~
⑷ 如何用 php 抓取微信文章正文
可以尝试使用DOM操作库simple-html-dom.php,快速获取HTML结构的内容:
<?php
require dirname(__FILE__).'/simple_html_dom.php';
$html = file_get_html('http://php.net/');
$articles = array();
foreach($html->find('article.newsentry') as $article) {
$item['time'] = trim($article->find('time', 0)->plaintext);
$item['title'] = trim($article->find('h2.newstitle', 0)->plaintext);
$item['content'] = trim($article->find('div.newscontent', 0)->plaintext);
$articles[] = $item;
}
print_r($articles);
可以把抓取到的内容写入置于内存上的SQLite(/run/shm/php/crawler.db3),避免频繁的磁盘IO.
⑸ 如何用 php 抓取微信文章正文
对于抓取微信文章的前提是需要先知道微信文章的链接,然后根据它的正文div里面的内容来定的自动爬取功能。目前你可以使用火车头采集软件来采集。
希望我的回答可以帮到你,有什么不懂可以追问。
⑹ 在php中怎么抓取一个网站上的信息,比如说酷我音乐上的流行榜单等
首先使用file_get_contents()得到页面源代码,然后通过正则表达式进行匹配就可以抓取信息了。
你可以参考一下这个blog:
http://blog.csdn.net/fujiafeihui/article/details/38277445
⑺ PHP怎样抓取网页代码中动态显示的数据
你是想抓别人网页上ajax动态载入的数据吧?
1、要找到它的ajax载入的URL地址
2、利用PHP的file_get_contents($url)函数读取那个url地址。
3、对抓取到的内容进行分析或正则过滤。
⑻ 如何用 php 抓取微信文章正文
抓取的话,可以用QueryList采集器:
QueryList的出现让PHP做采集从未如此简单。得益于phpQuery,让使用QueryList几乎没有任何学习成本,只要会CSS3选择器就可以轻松使用QueryList了,和jQuery选择器用法完全通用,它让PHP做采集像jQuery选择元素一样简单。http://www.php.cn/course/371.html,希望对你有帮助
⑼ 像点击出来的选框,里面的数据怎么抓取php
你那个应该是个input吧。定义个name 直接提交 post获取就行了,选择框那些只是写js最终他的值会都给那个发件地的框
⑽ 如何利用php抓取网站动态产生的数据
$url = "网站地址目录";
$queryServer = curl_init();
curl_setopt($queryServer, CURLOPT_URL, $url);
curl_setopt($queryServer, CURLOPT_HEADER, 0);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);
curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);
$html = curl_exec($queryServer);
$html = iconv('UTF-8','GBK//IGNORE',$html); //如果你需要是的数据是utf-8编码的,这一行可以注销,如果需要gbk编码的,请保留.如果出现乱码,就是一行的问题,你自己调着试吧
//echo $holder;exit; 此处可以输出来测试.
$html = str_replace(array("\n","\r","\t"),"",$html);
$preg = '/<table\s+width=\"800\"[^>]+>(.*?)<\/table>/';
preg_match_all($preg,$html,$out);
//匹配每行
preg_match_all('/<tr[^>]+>(.*?)<\/tr>/',$out[1][0],$tr);
//匹配每个td
$result = array();
$match = '/<td.+>([^<]+)<\/td>/U';
foreach( $tr[0] as $key => $value ){
preg_match_all($match,$value,$arr);
$result[] = $arr[1];
}
//输出测试,$result就是你要的数据,至于你要怎么输出显示格式,那就随心调就好了。
foreach( $result as $key => $value ){
echo implode("\t",$value);
echo "<br>";
}
exit;