信息抽取的演算法_網頁正文及內容圖片提取演算法

1. 網頁正文及內容圖片提取演算法

備份自： http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

問題： 如何提取任意（尤其是新聞、資訊類）網頁的正文內容，提取與文章內容相關的圖片，源碼可見： extractor.py 。

抓取單個網站網頁內容時通常採用正則匹配的方式，但不同網站之間結構千奇百怪，很難用統一的正則表達式進行匹配。《基於行塊分布函數的通用網頁正文抽取演算法》的作者總結了一般從網頁中提取文章正文的方法，提出基於行塊分布的正文抽取演算法，並給出了 PHP 、Java 等實現。這一演算法的主要原理基於兩點：

演算法步驟如下：

以上演算法基本可以應對大部分（中文）網頁正文的提取，針對有些網站正文圖片多於文字的情況，可以採用保留 <img> 標簽中圖片鏈接的方法，增加正文密度。目前少量測試發現的問題有：1）文章分頁或動態載入的網頁；2）評論長度過長喧賓奪主的網頁。

熱點內容

農村信用社app怎麼刪除明細發布：2025-03-14 21:17:04 瀏覽：817

學而思電腦怎麼下載app 發布：2025-03-14 21:16:12 瀏覽：107

php防止mysql注入發布：2025-03-14 21:15:22 瀏覽：233

磁力計校正演算法發布：2025-03-14 20:57:44 瀏覽：491

解壓縮後變小了發布：2025-03-14 20:57:37 瀏覽：957

智友文件夾發布：2025-03-14 20:46:57 瀏覽：81

android操作系統開發的操作系統發布：2025-03-14 20:34:08 瀏覽：478

原神手機怎麼改b站伺服器發布：2025-03-14 20:32:39 瀏覽：296

樁基箍筋加密區高度規范發布：2025-03-14 20:14:12 瀏覽：91

手機櫻花動漫app怎麼用發布：2025-03-14 20:08:49 瀏覽：382

php科學計數法轉換發布：2025-03-14 20:08:12 瀏覽：642

sip認證演算法發布：2025-03-14 19:58:44 瀏覽：785

androidapp卡頓原因發布：2025-03-14 19:54:30 瀏覽：905

25編程器電路發布：2025-03-14 19:52:58 瀏覽：849

安卓九是什麼東西發布：2025-03-14 19:49:11 瀏覽：939

隱藏nodejs命令行窗口發布：2025-03-14 19:48:38 瀏覽：62

人體與寫生素描pdf 發布：2025-03-14 19:48:38 瀏覽：883

java集合性能發布：2025-03-14 19:39:30 瀏覽：143

單片機三線通信發布：2025-03-14 19:35:17 瀏覽：209

崑山ug編程培訓學費發布：2025-03-14 19:32:52 瀏覽：628

信息抽取的演算法