php网页爬取_如何用PHP做网络爬虫

A. 你好，我如何用php来实现网络爬虫呢具体一点

以下是访问某音乐网站，并获取其歌曲名等数组的示例，你可以参考：

<?php
header('Content-type:text/html;charset=utf-8');
$doc = file_get_contents('http://www.songtaste.com/music/');
$pa = '{MSL$(.*)$;}';
preg_match_all($pa,$doc,$r);
for($i=0;$i<count($r[1]);$i++)
{
$r1 = explode(', ',$r[1][$i]);
echo '歌曲标题：'. iconv('gb2312','utf-8',$r1[0]) .' 歌曲ID：'.$r1[1].'<br/>';
}
?>

B. 网页内容是由javascript或者php用爬虫有何不同

javascript是浏览器脚本，php是服务器脚本。你可以查看js的代码，但不能查看php的代码。抓取网页的时候php网页的内容显得更干净，而js网页还要过滤掉js代码。

C. php实现网络爬虫

只要包含网络和字符串处理功能的编程语言理论上都可以写爬虫，所以PHP当然完全没问题。如何用PHP写爬虫的前提是你要先调研清楚爬什么内容。这需要你针对要爬取目标做好充分的测试和准备工作，丛简否则会浪费很多时间。

比如一个简单的“传统型”网站，那真的只需要用file_get_contents函数加正则就能搞定。觉的正则匹配数据太麻烦可以上xpath。如果站点有了频率和IP限制，这时就要额外准备好代理IP池了。当发现抓取内容是JS渲染的，可能要考虑引入headlessbrowser这种技术的PHP扩展了。对爬取效率有闹郑物了要求后，多线程，抓取和解析分离，分布式也是要考虑的了。。。

回到问题本身如何写的问题，我个人觉得爬虫是个定制化比较液液高的业务需求，需要根据具体的场景来规划。如果是要写一个能解决所有爬虫场景的，那就不用自己写了，成熟的开源软件拿来直接用就行了。非要写的话可以直接参考这些成熟的软件，自己可以少踩很多坑。

D. php中curl爬虫怎么样通过网页获取所有链接

本文承接上面两篇，本篇中的示例要调用到前两篇中的函数，做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业，更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下：

<?php
/*
* 使用curl 采集hao123.com下的所有链接。
*/
include_once('function.php');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.hao123.com/');
// 只需返回HTTP header
curl_setopt($ch, CURLOPT_HEADER, 1);
// 页面内容我们并不需要
// curl_setopt($ch, CURLOPT_NOBODY, 1);
// 返回结果，而不是输出它
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
$info = curl_getinfo($ch);
if ($html === false) {
echo "cURL Error: " . curl_error($ch);
}
curl_close($ch);
$linkarr = _striplinks($html);
// 主机部分，补全用
$host = 'http://www.hao123.com/';
if (is_array($linkarr)) {
foreach ($linkarr as $k => $v) {
$linkresult[$k] = _expandlinks($v, $host);
}
}
printf("<p>此页面的所有链接为：</p><pre>%s</pre>n", var_export($linkresult , true));
?>

function.php内容如下（即为上两篇中两个函数的合集）：

<?php
function _striplinks($document) {
preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s>]+))'isx", $document, $links);
// catenate the non-empty matches from the conditional subpattern
while (list($key, $val) = each($links[2])) {
if (!empty($val))
$match[] = $val;
} while (list($key, $val) = each($links[3])) {
if (!empty($val))
$match[] = $val;
}
// return the links
return $match;
}
/*===================================================================*
Function: _expandlinks
Purpose: expand each link into a fully qualified URL
Input: $links the links to qualify
$URI the full URI to get the base from
Output: $expandedLinks the expanded links
*===================================================================*/
function _expandlinks($links,$URI)
{
$URI_PARTS = parse_url($URI);
$host = $URI_PARTS["host"];
preg_match("/^[^?]+/",$URI,$match);
$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0]);
$match = preg_replace("|/$|","",$match);
$match_part = parse_url($match);
$match_root =
$match_part["scheme"]."://".$match_part["host"];
$search = array( "|^http://".preg_quote($host)."|i",
"|^(/)|i",
"|^(?!http://)(?!mailto:)|i",
"|/./|",
"|/[^/]+/../|"
);
$replace = array( "",
$match_root."/",
$match."/",
"/",
"/"
);
$expandedLinks = preg_replace($search,$replace,$links);
return $expandedLinks;
}
?>

E. 如何用PHP做网络爬虫

其实用PHP来爬会非常方便，主要是PHP的正则表达式功能在搜集页面连接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函数非常方便的下载网页内容。

F. 求一个简易的php爬虫提取网页的title

header("Content-Type: text/html; charset=gbk");
$url = "http://www..com/";
$fcontents = file_get_contents($url);
if (ereg("<title>(.*)</title>", $fcontents, $regs)){echo "ok";}else{echo "error";}
echo "<br>";
print_r($regs);

热点内容

程序员放弃后会怎样发布：2025-04-16 17:07:35 浏览：182

河北模具编程发布：2025-04-16 16:18:49 浏览：187

adb查找命令发布：2025-04-16 16:16:41 浏览：321

安卓手机视频文件夹怎么打开发布：2025-04-16 16:11:09 浏览：309

平板加密手机后怎么关闭发布：2025-04-16 16:11:01 浏览：567

流媒体服务器应该注意什么发布：2025-04-16 16:06:58 浏览：536

d8命令编译发布：2025-04-16 15:46:19 浏览：964

压缩包解压需要多少空间发布：2025-04-16 15:40:45 浏览：145

如何查找app属性发布：2025-04-16 15:34:45 浏览：388

android人脸识别技术发布：2025-04-16 15:34:06 浏览：322

pc104编程发布：2025-04-16 15:28:20 浏览：335

二维码反编译破解推广发布：2025-04-16 15:15:54 浏览：682

修改服务器的mac地址发布：2025-04-16 15:15:09 浏览：528

好玩的编程软件发布：2025-04-16 15:07:09 浏览：899

编程语言创始人有钱吗发布：2025-04-16 15:05:42 浏览：805

短视频app怎么获客发布：2025-04-16 14:55:39 浏览：15

查看云服务器的应用发布：2025-04-16 14:52:54 浏览：436

javadump工具发布：2025-04-16 14:42:45 浏览：565

程序员16g 发布：2025-04-16 14:41:53 浏览：445

程序员没有办法成为top怎么办发布：2025-04-16 14:39:37 浏览：218

导航:首页 > 编程语言 > php网页爬取

php网页爬取

与php网页爬取相关的资料