導航:首頁 > 源碼編譯 > 信息抽取的演算法

信息抽取的演算法

發布時間:2023-05-30 08:52:11

1. 網頁正文及內容圖片提取演算法

備份自: http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

問題: 如何提取任意(尤其是新聞、資訊類)網頁的正文內容,提取與文章內容相關的圖片,源碼可見: extractor.py 。

抓取單個網站網頁內容時通常採用正則匹配的方式,但不同網站之間結構千奇百怪,很難用統一的正則表達式進行匹配。 《基於行塊分布函數的通用網頁正文抽取演算法》 的作者總結了一般從網頁中提取文章正文的方法,提出基於行塊分布的正文抽取演算法,並給出了 PHP 、Java 等實現。這一演算法的主要原理基於兩點:

演算法步驟如下:

以上演算法基本可以應對大部分(中文)網頁正文的提取,針對有些網站正文圖片多於文字的情況,可以採用保留 <img> 標簽中圖片鏈接的方法,增加正文密度。目前少量測試發現的問題有:1)文章分頁或動態載入的網頁;2)評論長度過長喧賓奪主的網頁。

閱讀全文

與信息抽取的演算法相關的資料

熱點內容
伺服器怎麼用不會斷電 瀏覽:301
主從伺服器有什麼用 瀏覽:213
jstlpdf 瀏覽:14
安卓原神在哪個app下載 瀏覽:808
單片機編程技術什麼意思 瀏覽:104
e點課堂源碼 瀏覽:45
免費打擊墊app哪個好 瀏覽:532
程序員必裝的6款軟體 瀏覽:750
基於單片機的遙控器設計 瀏覽:521
安卓如何取消圓圖標 瀏覽:11
收件伺服器怎麼樣 瀏覽:48
建築設計規范pdf 瀏覽:98
如何合並兩個pdf 瀏覽:174
刷機包必須要解壓的單詞 瀏覽:483
android課表實現 瀏覽:864
頭條app在哪裡能看見有什麼活動 瀏覽:511
冰櫃壓縮機電容80歐 瀏覽:609
安卓各個版本圖標什麼樣 瀏覽:152
無錫哪裡有製作手機app 瀏覽:538
php字元串轉json數組 瀏覽:6