信息抽取的算法_网页正文及内容图片提取算法

1. 网页正文及内容图片提取算法

备份自： http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

问题： 如何提取任意（尤其是新闻、资讯类）网页的正文内容，提取与文章内容相关的图片，源码可见： extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式，但不同网站之间结构千奇百怪，很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法，提出基于行块分布的正文抽取算法，并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点：

算法步骤如下：

以上算法基本可以应对大部分（中文）网页正文的提取，针对有些网站正文图片多于文字的情况，可以采用保留 <img> 标签中图片链接的方法，增加正文密度。目前少量测试发现的问题有：1）文章分页或动态加载的网页；2）评论长度过长喧宾夺主的网页。

热点内容

pdf看三维发布：2025-03-14 21:57:32 浏览：406

九宫算法干什么用的发布：2025-03-14 21:57:21 浏览：907

phpjava性能比较发布：2025-03-14 21:47:50 浏览：886

2016会计中级pdf 发布：2025-03-14 21:44:43 浏览：181

农村信用社app怎么删除明细发布：2025-03-14 21:17:04 浏览：817

学而思电脑怎么下载app 发布：2025-03-14 21:16:12 浏览：107

php防止mysql注入发布：2025-03-14 21:15:22 浏览：233

磁力计校正算法发布：2025-03-14 20:57:44 浏览：491

解压缩后变小了发布：2025-03-14 20:57:37 浏览：957

智友文件夹发布：2025-03-14 20:46:57 浏览：81

android操作系统开发的操作系统发布：2025-03-14 20:34:08 浏览：478

原神手机怎么改b站服务器发布：2025-03-14 20:32:39 浏览：296

桩基箍筋加密区高度规范发布：2025-03-14 20:14:12 浏览：91

手机樱花动漫app怎么用发布：2025-03-14 20:08:49 浏览：382

php科学计数法转换发布：2025-03-14 20:08:12 浏览：642

sip认证算法发布：2025-03-14 19:58:44 浏览：785

androidapp卡顿原因发布：2025-03-14 19:54:30 浏览：905

25编程器电路发布：2025-03-14 19:52:58 浏览：849

安卓九是什么东西发布：2025-03-14 19:49:11 浏览：939

隐藏nodejs命令行窗口发布：2025-03-14 19:48:38 浏览：62

信息抽取的算法