phpcurl抓取数据_关于phpCURL使用ip代理服务器抓取页面的问题

A. thinkphp curl抓取的数据是怎样的

使用PHP的cURL库可以简单和有效地去抓网页。你只需要运行一个脚本，然后分析一下你所抓取的网页，然后就可以以程序的方式得到你想要的数据了。无论是你想从从一个链接上取部分数据，或是取一个XML文件并把其导入数据库，那怕就是简单的获取网页

B. php curl 模拟登录并获取数据实例详解

PHP的curl()在抓取网页的效率方面是比较高的，而且支持多线程，而file_get_contents()效率就要稍低些，当然，使用curl时需要开启下curl扩展。
代码实战
先来看登录部分的代码：
//模拟登录
function
login_post($url,
$cookie,
$post)
{
$curl
=
curl_init();//初始化curl模块
curl_setopt($curl,
CURLOPT_URL,
$url);//登录提交的地址
curl_setopt($curl,
CURLOPT_HEADER,
0);//是否显示头信息
curl_setopt($curl,
CURLOPT_RETURNTRANSFER,
0);//是否自动显示返回的信息
curl_setopt($curl,
CURLOPT_COOKIEJAR,
$cookie);
//设置Cookie信息保存在指定的文件中
curl_setopt($curl,
CURLOPT_POST,
1);//post方式提交
curl_setopt($curl,
CURLOPT_POSTFIELDS,
http_build_query($post));//要提交的信息
curl_exec($curl);//执行cURL
curl_close($curl);//关闭cURL资源，并且释放系统资源
}
函数login_post()首先初始化curl_init()，然后使用curl_setopt()设置相关选项信息，包括要提交的url地址，保存的cookie文件，post的数据（用户名和密码等信息），是否返回信息等等，然后curl_exec执行curl，最后curl_close()释放资源。注意PHP自带的http_build_query()可以将数组转换成相连接的字符串。
接下来如果登录成功后，我们要获取登录成功后的页面信息。
//登录成功后获取数据
function
get_content($url,
$cookie)
{
$ch
=
curl_init();
curl_setopt($ch,
CURLOPT_URL,
$url);
curl_setopt($ch,
CURLOPT_HEADER,
0);
curl_setopt($ch,
CURLOPT_RETURNTRANSFER,
1);
curl_setopt($ch,
CURLOPT_COOKIEFILE,
$cookie);
//读取cookie
$rs
=
curl_exec($ch);
//执行cURL抓取页面内容
curl_close($ch);
return
$rs;
}
函数get_content()中也是先初始化curl，然后设置相关选项，执行curl，释放资源。其中我们设置CURLOPT_RETURNTRANSFER为1即自动返回信息，而CURLOPT_COOKIEFILE可以读取到登录时保存的cookie信息，最后将页面内容返回。
我们的最终目的是要获取到模拟登录后的信息，也就是只有正常登录成功后才能获取的有用信息。接下来我们以登录开源中国的移动版为例，看看如何抓取到登录成功后的信息。
//设置post的数据
$post
=
array
(
'email'
=>
'oschina账户',
'pwd'
=>
'oschina密码',
'goto_page'
=>
'/my',
'error_page'
=>
'/login',
'save_login'
=>
'1',
'submit'
=>
'现在登录'
);
//登录地址
$url
=
"http://m.oschina.net/action/user/login";
//设置cookie保存路径
$cookie
=
dirname(__FILE__)
.
'/cookie_oschina.txt';
//登录后要获取信息的地址
$url2
=
"http://m.oschina.net/my";
//模拟登录
login_post($url,
$cookie,
$post);
//获取登录页的信息
$content
=
get_content($url2,
$cookie);
//删除cookie文件
@
unlink($cookie);
//匹配页面信息
$preg
=
"/<td
class='portrait'>(.*)<\/td>/i";
preg_match_all($preg,
$content,
$arr);
$str
=
$arr[1][0];
//输出内容
echo
$str;
使用总结
1、初始化curl；
2、使用curl_setopt设置目标url，和其他选项；
3、curl_exec，执行curl；
4、执行后，关闭curl；
5、输出数据。
感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

C. 如何用php CURL 抓取微信网页的内容

给你简单介绍几个吧
一、file_get_contents函数
$content = file_get_contents("URL");//URL就是你要获取的页面的地址
二、利用curl扩展
代码如下：
function getCurl($url){
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//不输出内容
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
$result = curl_exec($ch);
curl_close ($ch);
return $result;
}

PS：需要安装PHP的curl扩展

D. PHP用curl函数，抓取网页数据，数据里面的时间戳不能正常显示，显示为float(1.482130583E+12)

原因在于：PHP 数字超过一定长度时，会自动转换为科学计数法的形式。

可以用PHP函数number_format()来格式化数字，参考代码如下：

<?php
$num=number_format(1.2313223123423E+017,'','','');
echo$num;//输出“123132231234230000”
?>

E. 通过PHP 的 curl 如何抓取进港码头的数据

使用PHP的cURL库可以简单和有效地去抓网页。你只需要运行一个脚本，然后分析一下你所抓取的网页，然后就可以以程序的方式得到你想要的数据了。无论是你想从从一个链接上取部分数据，或是取一个XML文件并把其导入数据库，那怕就是简单的获取网页内容，cURL 是一个功能强大的PHP库。本文主要讲述如果使用这个PHP库。
//如果要转载本文请注明出处,免的出现版权纷争,我不喜欢看到那种转载了我的作品却不注明出处的人 Seven{See7di#Gmail.com}
启用 cURL 设置
首先，我们得先要确定我们的PHP是否开启了这个库，你可以通过使用php_info()函数来得到这一信息。
<?php
phpinfo();
?>
如果你可以在网页上看到下面的输出，那么表示cURL库已被开启。
如果你看到的话，那么你需要设置你的PHP并开启这个库。如果你是在Windows平台下，那么非常简单，你需要改一改你的php.ini文件的设置，找到php_curl.dll，并取消前面的分号注释就行了。如下所示：

//取消下在的注释
extension=php_curl.dll
如果你是在Linux下面，那么，你需要重新编译你的PHP了，编辑时，你需要打开编译参数——在configure命令上加上“–with-curl” 参数。
一个小示例
如果一切就绪，下面是一个小例程：

<?php
// 初始化一个 cURL 对象
$curl = curl_init();

// 设置你需要抓取的URL
curl_setopt($curl, CURLOPT_URL, 'http://cocre.com');

// 设置header
curl_setopt($curl, CURLOPT_HEADER, 1);

// 设置cURL 参数，要求结果保存到字符串中还是输出到屏幕上。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

// 运行cURL，请求网页
$data = curl_exec($curl);

// 关闭URL请求
curl_close($curl);

// 显示获得的数据
var_mp($data);
?>
如何POST数据
上面是抓取网页的代码，下面则是向某个网页POST数据。假设我们有一个处理表单的网址http://www.example.com/sendSMS.php，其可以接受两个表单域，一个是电话号码，一个是短信内容。

<?php
$phoneNumber = '13912345678';
$message = 'This message was generated by curl and php';
$curlPost = 'pNUMBER=' . urlencode($phoneNumber) . '&MESSAGE=' . urlencode($message) . '&SUBMIT=Send';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com/sendSMS.php');
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $curlPost);
$data = curl_exec();curl_close($ch);
?>
从上面的程序我们可以看到，使用CURLOPT_POST设置HTTP协议的POST方法，而不是GET方法，然后以CURLOPT_POSTFIELDS设置POST的数据。
关于代理服务器
下面是一个如何使用代理服务器的示例。请注意其中高亮的代码，代码很简单，我就不用多说了。

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com');
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HTTPPROXYTUNNEL, 1);
curl_setopt($ch, CURLOPT_PROXY, 'fakeproxy.com:1080');
curl_setopt($ch, CURLOPT_PROXYUSERPWD, 'user:password');
$data = curl_exec();curl_close($ch);
?>
关于SSL和Cookie
关于SSL也就是HTTPS协议，你只需要把CURLOPT_URL连接中的http://变成https://就可以了。当然，还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点。
关于Cookie，你需要了解下面三个参数：
CURLOPT_COOKIE，在当面的会话中设置一个cookie
CURLOPT_COOKIEJAR，当会话结束的时候保存一个Cookie
CURLOPT_COOKIEFILE，Cookie的文件。
HTTP服务器认证
最后，我们来看一看HTTP服务器认证的情况。

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC);
curl_setopt(CURLOPT_USERPWD, '[username]:[password]')

$data = curl_exec();
curl_close($ch);
?>

F. php curl 大量数据采集

这个需要配合js，打开一个html页面，首先js用ajax请求页面，返回第一个页面信息确定处理完毕（ajax有强制同步功能），ajax再访问第二个页面。（或者根据服务器状况，你可以同时提交几个URL，跑几个相同的页面）
参数可以由js产生并传递url，php后台页面根据URL抓页面。然后ajax通过php，在数据库或者是哪里设一个标量，标明检测到哪里。由于前台的html页面执行多少时候都没问题，这样php的内存限制和执行时间限制就解决了。
因为不会浪费大量的资源用一个页面来跑一个瞬间500次的for循环了。（你的500次for循环死了原因可能是获取的数据太多，大过了php限制的内存）
不过印象中curl好像也有强制同步的选项，就是等待一个抓取后再执行下一步。但是这个500次都是用一个页面线程处理，也就是说肯定会远远大于30秒的默认执行时间。

G. php的curl怎么爬取网页内容

编程爬虫比较难入门。
建议使用操作简单、功能强大的八爪鱼。

八爪鱼具有以下特点：

1、行业知名，全球300万+用户都在使用。
2、内置数百个主流网站采集模板，满足绝大部分采集需求，会鼠标点击以及文本输入即可采集数据。
3、智能采集，自动识别多种验证码，提供代理IP池，结合UA切换，可有效突破封锁，顺利采集数据。
4、可视化操作流程，眼见即可采（可采集市面上98%的网站），不管是图片电话，还是自媒体论坛，支持所有业务渠道的爬虫，满足各种采集需求。
5、云采集，5000台云服务器，24*7高效稳定采集，结合API可无缝对接内部系统，定期同步爬数据。
6、支持企业私有化部署，可部署在隔离内网环境。提供定制化部署方案，满足多种数据安全级别。

H. php curl 抓取页面几种方法介绍

使用代理进行抓取
为什么要使用代理进行抓取呢？以google为例吧，如果去抓google的数据，短时间内抓的很频繁的话，你就抓取不到了。google对你的ip地址做限制这个时候，你可以换代理重新抓。

代码如下
<?php
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,"
);
curl_setopt($ch,CURLOPT_HEADER,false);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_HTTPPROXYTUNNEL,TRUE);
curl_setopt($ch,CURLOPT_PROXY,125.21.23.6:8080);
//url_setopt($ch,CURLOPT_PROXYUSERPWD,'user:password');如果要密码的话，加上这个
$result=curl_exec($ch);
curl_close($ch);
?>

I. 关于phpCURL使用ip代理服务器抓取页面的问题

$curl = curl_init ();
curl_setopt ( $curl, CURLOPT_URL, 需要抓取的url地址 );
curl_setopt ( $curl, CURLOPT_HEADER, 0 );
curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 ); // 禁止调用时就输出获取到的数据
curl_setopt ( $curl, CURLOPT_FOLLOWLOCATION, 1 );
curl_setopt ( $curl, CURLOPT_SSL_VERIFYPEER, false );
curl_setopt ( $curl, CURLOPT_SSL_VERIFYHOST, false );

// curl_setopt($ch,CURLOPT_TIMEOUT,20);//10秒
// curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,20);//10秒
// curl_setopt($ch, CURLOPT_REFERER, $collectConfigArray ['refererUrl']);

$collectHtml = curl_exec ( $curl );
echo $collectHtml;
unset ( $curl );
curl_close ( $ch );

导航:首页 > 编程语言 > phpcurl抓取数据

phpcurl抓取数据

与phpcurl抓取数据相关的资料