导航:首页 > 源码编译 > 信息抽取的算法

信息抽取的算法

发布时间:2023-05-30 08:52:11

1. 网页正文及内容图片提取算法

备份自: http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

问题: 如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见: extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:

算法步骤如下:

以上算法基本可以应对大部分(中文)网页正文的提取,针对有些网站正文图片多于文字的情况,可以采用保留 <img> 标签中图片链接的方法,增加正文密度。目前少量测试发现的问题有:1)文章分页或动态加载的网页;2)评论长度过长喧宾夺主的网页。

阅读全文

与信息抽取的算法相关的资料

热点内容
程序员算法有多强 浏览:713
pythonworkbook模块 浏览:242
什么app能查医生 浏览:175
轻量级的编程语言 浏览:338
程序员那么可爱生孩子 浏览:432
后缀him3加密文件是什么软件 浏览:984
坚果隐藏app为什么要140版本才能用 浏览:313
淘宝dns服务器地址 浏览:259
领英转型app哪个好用 浏览:943
压缩软件的图标 浏览:97
卖鞋哪个app是真的 浏览:469
python迭代是累计吗 浏览:419
程序员哪些平台接私活 浏览:175
单片机充电电路原理图 浏览:1000
android软件云服务器地址 浏览:213
如何用服务器做内网穿透服务 浏览:401
oracle加密表空间重置密码 浏览:302
mdk编译后目标文件 浏览:616
老人动手解压 浏览:720
小米sd卡解压 浏览:996