㈠ python可以做到自動抓取互聯網上的新聞更新到網站嗎
理論上完全可以實現,相應的技術方案也是比較成熟的。不知道需要爬取的網站內容復雜不復雜的。目前我想到的方案是藉助爬蟲框架,數據存儲可利用mysql,mongodb之類的。打個比方,這是我用scrapy爬取詩詞網站的數據,臘純然後存儲到Mongodb中,就是缺少一部更新。
我們可以設定一個任務,任務可以是每1分鍾更新一下爬取數據,這樣就可以做到對應網站數據的更新,至於自身網站數據的更新,因為是客戶端發起的,所以,只要做到伺服器商數汪帶據更新了,客戶端就可以看到最新的數據,當然,需要注意相應的緩存技術的影響。
總的來說,爬取網站的數據然後更新到網站,是完全可以實現的。主要是看出於什麼的目的,以及爬輪陵咐取的網站的復雜性問題。
㈡ [內附完整源碼和文檔] 基於python的新聞檢索系統
1 系統介紹
1.1 系統需求
新聞檢索系統:定向採集不少於 4 個中文社會新聞網站或頻道,實現這些網站新聞信息及評論信息的自動爬取、抽取、索引和檢索。本項目未使用 lucene,Goose 等成熟開源框架。
1.2 系統思路與框架
本系統總體的實現思路如圖 1 所示:
一個完整的搜索系統主要的步驟是:
對新聞網頁進行爬蟲得到語料庫
抽取新聞的主體內容,得到結構化的 xml 數據
內存式單遍掃描索引構建方法構建倒排索引,供檢索模塊使用
用戶輸入查詢,得到相關文檔返回給用戶
2 設計方案
2.1 新聞爬取
2.1.1 演算法簡述
該模塊針對搜狐,網易,騰訊三大主流新聞網站及官方的參考消息網站進行了新聞獲取。並基於其網站結構,設計了不同的爬取模式。由於網站架構兩兩相似,以下選取兩種類型的典型代表進行介紹:
(1)搜狐新聞
搜狐新聞除正常主頁外,存在隱藏的列表式新聞頁 , 如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。
(2)網易新聞
可以將網易新聞及騰訊新聞歸結為一般類型的新聞主頁,我們採用了自新聞主頁開始的廣度優先的遞歸爬取策略。注意到新聞的正文頁往往是靜態網頁.html,因此,我們將網頁中出現的所有以.html 結尾的網頁的 URL 均記錄下來,在爬取到一定量時,進行一次去重。
對於一些不是新聞的錯分網頁,容錯處理即通過檢查新聞正文標簽
時會被剔除。
新聞正文頁中我們重點關注內容,時間,評論獲取。
2.1.2 創新點
實現了對新聞網頁動態載入的評論進行爬取,如搜狐新聞評論爬取
未藉助開源新聞爬取工具,自己實現了對新聞標題,正文,時間,評論內容,評論數目的高效爬取
2.2 索引構建
分詞,我們藉助開源的 jieba 中文分片語件來完成,jieba 分詞能夠將一個中文句子切成一個個詞項,這樣就可以統計 tf, df 了
去停用詞,去停詞的步驟在 jieba 分詞之後完成
倒排記錄表存儲,詞典用 B-樹或 hash 存儲,倒排記錄表用鄰接鏈表存儲方式,這樣能大大減少存儲空間
倒排索引構建演算法使用內存式單遍掃描索引構建方法(SPIMI),就是依次對每篇新聞進行分詞,如果出現新的詞項則插入到詞典中,否則將該文檔的信息追加到詞項對應的倒排記錄表中。
2.3 檢索模塊
2.3.1 檢索模式
(1)關鍵詞檢索
查詢即根據用戶輸入的關鍵字,返回其相應的新聞。首先根據用戶的查詢進行 jieba 分詞,記錄分詞後詞項的數量以字典形式進行存儲。
完整的源碼和詳細的文檔,上傳到了 WRITE-BUG技術共享平台 上,需要的請自取:
https://www.write-bug.com/article/3122.html
㈢ 有哪些知名的公司在用Python
Reddit - 社交分享網站,最早用Lisp開發,在2005年轉為python
Dropbox - 文件分享服務
豆瓣網 - 圖書、唱片、電影等文化產品的資料資料庫網站
Django - 鼓勵快速開發的Web應用框架
Fabric - 用於管理成百上千台Linux主機的程序庫
EVE - 網路游戲EVE大量使用Python進行開發
Blender - 以C與Python開發的開源3D繪圖軟體
BitTorrent - bt下載軟體客戶端
Ubuntu Software Center - Ubuntu 9.10版本後自帶的圖形化包管理器
YUM - 用於RPM兼容的Linux系統上的包管理器
IV - 游戲《文明4》
Battlefield 2 - 游戲《戰地2》
Google - 谷歌在很多項目中用python作為網路應用的後端,如Google Groups、Gmail、Google Maps等,Google App Engine支持python作為開發語言
NASA - 美國宇航局,從1994年起把python作為主要開發語言
Instrial Light & Magic - 工業光魔,喬治·盧卡斯創立的電影特效公司
Yahoo! Groups - 雅虎推出的群組交流平台
YouTube - 視頻分享網站,在某些功能上使用到python
Cinema 4D - 一套整合3D模型、動畫與繪圖的高級三維繪圖軟體,以其高速的運算和強大的渲染插件著稱
Autodesk Maya - 3D建模軟體,支持python作為腳本語言
gedit - Linux平台的文本編輯器
GIMP - Linux平台的圖像處理軟體
Minecraft: Pi Edition - 游戲《Minecraft》的樹莓派版本
MySQL Workbench - 可視化資料庫管理工具
Digg - 社交新聞分享網站
Mozilla - 為支持和領導開源的Mozilla項目而設立的一個非營利組織
Quora - 社交問答網站
Path - 私密社交應用
Pinterest - 圖片社交分享網站
SlideShare - 幻燈片存儲、展示、分享的網站
Yelp - 美國商戶點評網站
Slide - 社交遊戲/應用開發公司,被谷歌收購
㈣ 如何用python計算兩篇新聞文檔之間的距離
你好,你可以考慮使用gensim的來做文本的相識度分析。主要使用的演算法是tf-idf
tf:term frequency 詞頻
idf:inverse document frequency 倒文檔頻率
主要思想是:如果某個詞或短語在一篇文章中出現的頻率高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
第一步:把每個網頁文本分詞,成為詞包(bag of words)。
第三步:統計網頁(文檔)總數M。
第三步:統計第一個網頁詞數N,計算第一個網頁第一個詞在該網頁中出現的次數n,再找出該詞在所有文檔中出現的次數m。則該詞的tf-idf 為:n/N * 1/(m/M) (還有其它的歸一化公式,這里是最基本最直觀的公式)
第四步:重復第三步,計算出一個網頁所有詞的tf-idf 值。
第五步:重復第四步,計算出所有網頁每個詞的tf-idf 值。
3、處理用戶查詢
第一步:對用戶查詢進行分詞。
第二步:根據網頁庫(文檔)的數據,計算用戶查詢中每個詞的tf-idf 值。
4、相似度的計算
使用餘弦相似度來計算用戶查詢和每個網頁之間的夾角。夾角越小,越相似。
㈤ 哪個科技新聞類網站比較好
國家級的有"中新網科技","光明網科技","中國科技新聞網","人民網科技","新華網科技","中國經濟網科技","央廣網科技","央視網科技","中國科技網"等是我國主要發布科技新聞的網站。