ngandrewpython實現_分享!5個好用的Python工具

Ⅰ 如何正確學習數據科學中的 python

作者 | skura
來源 | AI開發者

大多數有抱負的數據科學家是通過學習為開發人員開設的編程課程開始認識 python 的，他們也開始解決類似 leetcode 網站上的 python 編程難題。他們認為在開始使用 python 分析數據之前，必須熟悉編程概念。

資深數據分析師 Manu Jeevan 認為，這是一個巨大的錯誤，因為數據科學家使用 python 來對數據進行檢索、清洗、可視化和構建模型，而不是開發軟體應用程序。實際上，為了完成這些任務，你必須將大部分時間集中在學習 python 中的模塊和庫上。他認為，學習數據科學的正確姿勢應該如下文，AI 開發者進行了編譯整理。

請按照下面這個步驟來學習數據科學的 python。

配置編程環境

Jupyter Notebook 是開發和展示數據科學項目的強大編程環境。

在電腦上安裝 Jupyter Notebook 最簡單的方法是通過 Anaconda 進行安裝。Anaconda 是數據科學中使用最廣泛的 python 工具，它預裝了所有最流行的庫。

你可以瀏覽標題為「A Beginner』s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章（https://medium.com/better-programming/beginners-quick-guide-for-handling-issues-launching-jupyter-notebook-for-python-using-anaconda-8be3d57a209b），了解如何安裝 Anaconda。安裝 Anaconda 時，請選擇最新的 python 3 版本。

安裝完 Anaconda 後，請閱讀 Code Academy 的這篇文章（https://www.codecademy.com/articles/how-to-use-jupyter-notebooks），了解如何使用 Jupyter Notebook。

只學習 python 的基礎知識

Code Academy 有一門關於 python 的優秀課程，大約需要 20 個小時才能完成。你不必升級到 pro 版本，因為你的目標只是熟悉 python 編程語言的基礎知識。課程地址：https://www.codecademy.com/learn/learn-python-3

NumPy 和 Pandas，學習的絕佳資源

在處理計算量大的演算法和大量數據時，python 速度較慢。你可能會問，既然如此那為什麼 python 是數據科學最流行的編程語言？

答案是，在 python 中，很容易以 C 或 Fortran 擴展的形式將數字處理任務轉移到底層。這正是 NumPy 和 Pandas 所做的事情。

首先，你應該學會 NumPy。它是用 python 進行科學計算的最基本的模塊。NumPy 支持高度優化的多維數組，這是大多數機器學習演算法最基本的數據結構。

接下來，你應該學習 Pandas。數據科學家花費大部分時間清洗數據，這也被稱為數據整。

Pandas 是操作數據最流行的 python 庫。Pandas 是 NumPy 的延伸。Pandas 的底層代碼廣泛使用 NumPy 庫。Pandas 的主要數據結構稱為數據幀。

Pandas 的創造者 Wes McKinney 寫了一本很棒的書，叫做《Python for Data Analysis》（https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K）。在書中的第 4、5、7、8 和 10 章可以學習 Pandas 和 NumPy。這些章節涵蓋了最常用的 NumPy 和 Pandas 特性來處理數據。

學習使用 Matplotlib 可視化數據

Matplotlib 是用於創建基本可視化圖形的基本 python 包。你必須學習如何使用 Matplotlib 創建一些最常見的圖表，如折線圖、條形圖、散點圖、柱狀圖和方框圖。

另一個建立在 Matplotlib 之上並與 Pandas 緊密結合的好的繪圖庫是 Seaborn。在這個階段，我建議你快速學習如何在 Matplotlib 中創建基本圖表，而不是專注於 Seaborn。

我寫了一個關於如何使用 Matplotlib 開發基本圖的教程，該教程由四個部分組成。

第一部分：Matplotlib 繪制基本圖（http://nbviewer.ipython.org/gist/manujeevanprakash/138c66c44533391a5af1）第二部分：如何控制圖形的樣式和顏色，如標記、線條粗細、線條圖案和使用顏色映射（https://nbviewer.jupyter.org/gist/manujeevanprakash/7dc56e7906ee83e0bbe6）第三部分：注釋、控制軸范圍、縱橫比和坐標系（https://nbviewer.jupyter.org/gist/manujeevanprakash/7cdf7d659cd69d0c22b2）第四部分：處理復雜圖形（https://nbviewer.jupyter.org/gist/manujeevanprakash/7d8a9860f8e43f6237cc）

你可以通過這些教程來掌握 Matplotlib 的基本知識。

簡而言之，你不必花太多時間學習 Matplotlib，因為現在公司已經開始採用 Tableau 和 Qlik 等工具來創建互動式可視化。

如何使用 SQL 和 python

數據有組織地駐留在資料庫中。因此，你需要知道如何使用 SQL 檢索數據，並使用 python 在 Jupyter Notebook 中執行分析。

數據科學家使用 SQL 和 Pandas 來操縱數據。有一些數據操作任務使用 SQL 就可以很容易地執行，並且有一些任務可以使用 Pandas 高效地完成。我個人喜歡使用 SQL 來檢索數據並在 Pandas 中進行操作。

如今，公司使用 Mode Analytics 和 Databricks 等分析平台來輕松地使用 python 和 SQL。

所以，你應該知道如何一起有效地使用 SQL 和 python。要了解這一點，你可以在計算機上安裝 SQLite 資料庫，並在其中存儲一個 CSV 文件，然後使用 python 和 SQL 對其進行分析。

這里有一篇精彩的博客文章，向你展示了如何做到這一點：Programming with Databases in Python using SQLite（https://medium.com/analytics-vidhya/programming-with-databases-in-python-using-sqlite-4cecbef51ab9）。

在瀏覽上述博客文章之前，你應該了解 SQL 的基礎知識。Mode Analytics 上有一個很好的關於 SQL 的教程：Introction to SQL（https://medium.com/analytics-vidhya/programming-with-databases-in-python-using-sqlite-4cecbef51ab9）。通過他們的基本 SQL 部分，了解 SQL 的基本知識，每個數據科學家都應該知道如何使用 SQL 有效地檢索數據。

學習和 python 相關的基本統計學知識

多數有抱負的數據科學家在不學習統計學的基礎知識的情況下，就直接跳到機器學習知識的學習中。

不要犯這個錯誤，因為統計學是數據科學的支柱。而且，很多數據科學家學習統計學只是學習理論概念，而不是學習實踐概念。

我的意思是，通過實踐概念，你應該知道什麼樣的問題可以用統計學來解決，了解使用統計數據可以解決哪些挑戰。

以下是你應該了解的一些基本統計概念：

抽樣、頻率分布、平均值、中位數、模式、變異性度量、概率基礎、顯著性檢驗、標准差、z 評分、置信區間和假設檢驗（包括 A/B 檢驗）

要學習這些知識，有一本很好的書可以看看：《Practical Statistics for Data Scientists: 50 Essential Concepts》（https://www.amazon.com/Practical-Statistics-Data-Scientists-Essential/dp/9352135652）。不幸的是，本書中的代碼示例是用 R 編寫的，但是很多人包括我自己在內使用的是 Python。

我建議你閱讀本書的前四章。閱讀本書的前 4 章，了解我前面提到的基本統計概念，你可以忽略代碼示例，只了解這些概念。本書的其餘章節主要集中在機器學習上。我將在下一部分討論如何學習機器學習。

大多數人建議使用 Think Stats （https://www.amazon.com/Think-Stats-Allen-B-Downey/dp/1449307116）來學習 python 的統計知識，但這本書的作者教授了自己的自定義函數，而不是使用標準的 python 庫來進行統計知識講解。因此，我不推薦這本書。

接下來，你的目標是實現在 Python 中學習的基本概念。StatsModels 是一個流行的 python 庫，用於在 python 中構建統計模型。StatsModels 網站提供了關於如何使用 Python 實現統計概念的優秀教程。

或者，你也可以觀看 Ga?l Varoquaux 的視頻。他向你展示了如何使用 Pandas 和統計模型進行推理和探索性統計。

使用 Scikit-Learn 進行機器學習

Scikit-Learn 是 Python 中最流行的機器學習庫之一。你的目標是學習如何使用 Scikit Learn 實現一些最常見的機器學習演算法。

你應該像下面這樣做。

首先，觀看 Andrew Ng 在 Coursera 上的機器學習課程（https://www.coursera.org/learn/machine-learning）的第 1、2、 3、6,、7 和第 8 周視頻。我跳過了關於神經網路的部分，因為作為初學者，你必須關注最通用的機器學習技術。

完成後，閱讀「Hands-On Machine Learning with Scikit-Learn and TensorFlow」一書（https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291）。你只需瀏覽這本書的第一部分（大約 300 頁），它是最實用的機器學習書籍之一。

通過完成本書中的編碼練習，你將學習如何使用 python 實現你在 Andrew Ng 課程中學習到的理論概念。

結論

最後一步是做一個涵蓋上述所有步驟的數據科學項目。你可以找到你喜歡的數據集，然後提出有趣的業務問題，再通過分析來回答這些問題。但是，請不要選擇像泰坦尼克號這樣的通用數據集。你可以閱讀「19 places to find free data sets for your data science project」來查找合適的數據集（https://www.dataquest.io/blog/free-datasets-for-projects/）。

另一種方法是將數據科學應用到你感興趣的領域。例如，如果你想預測股票市場價格，那麼你可以從 Yahoo Finance （https://www.scrapehero.com/scrape-yahoo-finance-stock-market-data/）中獲取實時數據，並將其存儲在 SQL 資料庫中，然後使用機器學習來預測股票價格。

如果你希望從其它行業轉行到數據科學，我建議你完成一個利用你的領域專業知識的項目。關於這些，我在以前的博客文章"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 1"（https://www.kdnuggets.com/2019/05/guide-transitioning-career-data-science-part-1.html）和"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 2"（https://www.kdnuggets.com/2019/06/guide-transitioning-career-data-science-part-2.html）中有提到過。

Ⅱ 如何用Python做爬蟲

在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。

我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具截取下來，但這樣就降低圖片的清晰度。好吧其實你很厲害的，右鍵查看頁面源代碼。

我們可以通過python來實現這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

Ⅲ 人工智慧專業的學習步驟

這個可以到專業學習院校了解
人工智慧
就業方向：科學研究，工程開發。計算機方向。軟體工程。應用數學。電氣自動化。通信。機械製造
人工智慧可以說是一門高尖端學科，屬於社會科學和自然科學的交叉，涉及了數學、心理學、神經生理學、資訊理論、計算機科學、哲學和認知科學、不定性論以及控制論。研究范疇包括自然語言處理、機器學習、神經網路、模式識別、智能搜索等。應用領域包括機器翻譯、語言和圖像理解、自動程序設計、專家系統等。

Ⅳ 一周就學會Python你真的能夠做到嗎

也許在很多人看來，python是一門很「容易」學的編程語言，「容易」到什麼程度？他們認為：一周就能學會python！

在知乎上有一條有趣的動態：

該條動態的作者認為一個高考600分以上的人，一天時間能學會 Python，一周時間就能推完 Andrew Ng 的 ML 課程。

恰好，我是一個高考600分以上的人，學過 Python，也看過 Andrew Ng 的 Machine Learning 課程。所以我想設身處地就這個話題聊一聊，到底能不能在短時間內學會 Python，這里我們不限制時間為一天，就一周好了。

我並不反對上圖中作者的觀點，因為我確實只用了一天就初學和上手了 Python（大學四年級），還寫出了小應用。不過這個學習成果存在一個不可忽略的前提條件：在學習 Python 之前，我已經寫過兩年 C++ 和一年 Java 了。

和沒有一點基礎的人相比，我已經擁有了大量的編程實踐經驗和計算機理論知識，所以我能一天上手 Python，並不是非常奇怪和罕見的現象。

針對上面的問題，我的觀點是：即使是高考600分以上的人，如果沒有一定的編程基礎，也很難在一周內學會 Python。

當然，也不排除有人是天才，可以速成。但是至今我還沒有發現這樣的人。我女朋友、我周圍的同學，高考都是600分甚至650分以上，但我真的沒有見過誰能一天或一周就學會編程的。

那麼，更一般的情況是，高考600分以上的人尚且不能一周學會 Python，那些沒有600分以下的人是不是更難學會呢？從概率上講，是的，這里不是歧視，只是闡述一種現象。

但為什麼時常有人說可以快速入門「Python」，是他們在說假話嗎？

我想他們並沒有說假話，只是忽略了一個關鍵的問題——我在前文提到的「基礎」。有了基礎之後，一周入門 Python，速成 Django，一天學會爬蟲，這都是再正常不過的事情了。但這些對於完全沒有接觸過編程的同學來說，實在是難度太大。

之前聽過我的一個直系學長關於創業的講座，那是2014年，我才大二。學長的名字杜昶旭，朗播網的創始人兼CEO，現在早已有了一份自己的事業。我印象最深刻的一幕，是台下的同學請他分享一下自己在創業過程中遇到的困難，他答道——當你走過荊棘、越過重重困難走到山頂的時候，你看到的是一望無際的遠方和光明，之前的困難你都會忘得一干二凈。

這句話我十分認同，我在第一次高考失利後復讀過一年，每當我讀到自己在復讀時期記錄的點滴生活，都會感嘆那些日子是多麼艱難，卻總是忘記那就是我曾經的生活，忘記復讀的那個人是我，忘記那些日子究竟有多苦。唯一記得的就是我復讀後的成績——比前一年多考了140多分。

人在經歷重重磨難並取得暫時的成功後，會很容易忘記自己受過的苦，記得的只是成功。

所以，當有人告訴你可以快速學會一項大部分人都很難學好的技能時，有三種可能，一是他在裝逼，二是他是天才，三是他努力過了卻忘記了自己的努力。大部分情況下，是第三種。

一周學不會 Python。

為什麼很多人都覺得 Python 簡單，到底是誰在說 Python 簡單，Python 是否真的簡單，如果真的簡單它到底簡單在哪裡？

我想，很多人說 Python 簡單指的是「語法」層面的簡單。的確如此，Python 和其他編程語言如 C++、Java、PHP、Go 相比，語法要簡單很多。

除了語法簡單，Python 天然適合和數據打交道，對數據的處理相對其他編程語言也是比較方便，內置的數據結構也比較少。

但是我們很容易忽略一個問題：編程語言不能獨立於業務而單獨存在，編程是為了解決問題的。各個編程語言都有自己擅長的方面，比如 Linux 內核系統調用、底層交互方面，C++ 可能更占優勢；實際業務場景中有大量的計算任務和並發時，可能要達到某一參數指標，Go 會更加簡單。

只是語法簡單沒有用，在能滿足業務要求的前提下，誰最容易達成目標，誰才是最簡單的。

況且，Python也沒有傳說中那麼簡單，只會語法和能做出東西是有本質區別的，就像你會了 Python 語法，但你能做出數據分析嗎，能寫爬蟲嗎，能開發 Web 嗎？任何一門編程語言往深學，都會成為工具，能用工具完成具體的任務才是真的學好並用好了它。

我喜歡買書，也喜歡看書，下圖是我從書櫃上隨便拿的幾本關於Python的書，有的我看完了，有的正在看，有的還沒看，每本書都有幾百頁厚，任何一個方嚮往深了學，都不簡單。

我們學習的時候，千萬不能在剛開始的時候就給自己一個心理暗示：這很簡單，很容易學好，如果這樣，你將很難在學習中堅持下去。

我時常看到一個有趣的現象，不少人都很在意「編程語言排行榜」，如果自己正在學習 Python 或 C++，而 Python 或 C++ 的排名又上升了，他就會格外開心，反之就開始罵爹喊娘。

其實大可不必這樣，學習編程的時候一定不要把自己限定在某一門編程語言中。在實際工作中，大多數情況下我們是根據項目來選擇合適的編程語言，而不是根據編程語言選擇合適的項目。

比如你一直寫 C++，但是來了一個適合用 PHP 做的需求，即使你不會 PHP，你也得用 PHP 寫。不會寫也要一天入門，工作就是這樣的，別問我為什麼，工作一年半我已經寫過 JAVA、JavaScript、C++、PHP、Python、Lua、Go ... 而我當初入職面試的崗位是C++工程師...

多了解一點沒壞處。

經常有朋友們問我：

很多初學編程的朋友對如何入門傷透了腦筋，而我的回答只能是：

其實大家現在學習編程比我們當初的條件好多了，我們剛學編程那會兒，慕課還沒有流行起來，我那時學C語言看的還是譚浩強的書。哪裡有現在這么方便，動不動就送你1024G資料的福利，掩面。

其實學編程和學外語一樣，都是階梯式進步的，而它的特點就是，在學習很長一段時間後都感受不到進步，但突然某一天就開竅了，想通了很多問題，感受到自己的經驗值得到了大幅度的提升，然後又會陷入一段平淡期。

當你多經歷幾次這樣的循環，你就算是學會編程了。

學習編程，我們不應該以天為單位，而應該以年為單位。如果非得給一個最快能入門的時間，那就定為三個月吧，如果你真的在三個月里用大量的時間投入去看一門課，啃一本書，三個月後你應該會到達一個新的 Level，就算是入門了。

更多Python知識，請關註：Python自學網！！

Ⅳ 想學習人工智慧，如何下手學習呢

1、選擇一種編程語言
首先，你得學會一種編程語言。雖然編程語言的選擇有很多種，但大部分人都會選擇從Python開始，因為Python的庫更適用於機器學習。
2、學習代數、微積分、概率統計學的基礎知識
如果你想了解機器學習更深層次的東西，學習這些知識是必不可少的，且會讓你獲益匪淺。同時我們可以利用Python科學資料庫如Numpy&SciPy的優勢。在學習不同的演算法時，你需要將數據可視化，並學會利用在演算法中用到的代數、微積分等概念屬性。
3、學習Python庫
機器學習庫中已經寫好了無數個Python庫。你就挨個學習吧。在Python中，可以先從SciPy, PyBrain, Matplotlib 和Numpy開始學習，這些對你寫機器學習演算法都將十分有用。
其實，這也是學習人工智慧的第一步。
4、Andrew-Ng課程
強烈推薦Andrew-NG的免費課程，了解機器學習的概念及演算法理論。
學習完他的課程以後，你對人工智慧現象就會有一些了解了。
5、學習Scikit-Learn庫
最強大的API之一，擁有各種演算法功能強大的數據編碼器（Algorithms Powerful Data Encoders）
強烈推薦你看看這本書——Python Machine Learning Edition 2，中文名《Python 機器學習》第2版，作者Sebastian Raschka。

「我剛開始學習人工智慧時就讀了這本書。讀完本書，你就會了解如何實現機器學習中的各種演算法」。
從機器學習演算法理論（數學解釋）和優化方法到實戰編碼，本書涵蓋了Python實戰演算法和Scikit-Learn API在Python中的應用等知識。
6、實戰時間
你也應該積極參加網路上各種編程競賽。這類競賽一般都很耗時，但不管怎樣，你在剛開始的時候沒必要一定要取得一個很高的排名，因為參加比賽的人都很優秀。剛開始，在他們面前你可能只是個無名小卒，但也別灰心，你只要每天持續練習，向每個人學習就好了。
就拿我來說吧，我在比賽中從來沒進過前十。但是，我仍然在堅持。因為想要取得排名的話，你需要投入大量的時間。而我的目標，僅僅是重在參與，學習更多知識罷了。

Ⅵ 數據挖掘方向，Python中還需要學習哪些內容

就題論題，還包括：
1. Python 資料庫連接庫，例如MySQL 連接庫的應用，這決定你的數據從哪裡來。這裡面涉及到sql語法和資料庫基本知識，是你在學習的時候必須一起學會的。
2. Python 做基本數據計算和預處理的庫，包括numpy ，scipy，pandas 這三個用得最多。
3. 數據分析和挖掘庫，主要是sklearn，Statsmodels。前者是最廣泛的機器學習庫，後者是側重於統計分析的庫。（要知道統計分析大多時候和數據挖掘都錯不能分開使用）
4. 圖形展示庫。matpotlib，這是用的最多的了。
說完題主本身要求，樓上幾位說的對，你還需要一些關於數據挖掘演算法的基本知識和認知，否則即使你調用相關庫得到結果，很可能你都不知道怎麼解讀，如何優化，甚至在什麼場景下還如何選擇演算法等。因此基本知識你得了解。主要包括：
1.統計學相關，看看深入淺出數據分析和漫畫統計學吧，雖然是入門的書籍，但很容易懂。
2.數據挖掘相關，看看數據挖掘導論吧，這是講演算法本身得書。
剩下的就是去實踐了。有項目就多參與下項目，看看真正的數據挖掘項目是怎麼開展的，流程怎樣等。沒有項目可以去參加一些數據挖掘或機器學習方面的大賽，也是增加經驗得好方法。

Ⅶ 分享!5個好用的Python工具

1、 IDLE

IDLE直譯過來就是集成開發與學習環境的意思，一般安裝 Python 時也會默認安裝 IDLE。每個語言都可以有自己的IDLE。它讓Python的入門變得簡單，對於沒什麼基礎的人寫就對了。它的主要功能包括Python shell 窗口(互動式解釋器)、跨平台(Windows、Linux、UNIX、Mac OS X)、智能縮進、代碼著色、自動提示、可以實現斷點提示、單步執行等調試功能的基本集成調試器。

2、 Scikit-learn

scikit-learn是一個建立在Scipy基礎上的用於機器學習的Python模塊。其中scikit-learn是最有名的，是開源的，任何人都可以免費地使用這個庫或者進行二次開發。它是一個非常強大的工具，能為庫的開發提供高水平的支持和嚴格的管理。它也得到了很多第三方工具的支持，有豐富的功能適用於各種用例。

3、Theano

Theano是一個較老牌和穩定的機器學習python庫之一，雖然目前使用的人數有所下降。但它畢竟是一個祖師級的存在，一定有它的優點所在。Theano基於Python擅長處理多維數組，屬於比較底層的框架，theano起初也是為了深度學習中大規模人工神經網路演算法的運算所設計，我們可利用符號化式語言定義想要的結果，支持GPU加速，非常適合深度學習Python。

4、Selenium

Selenium 是自動化的最佳工具之一。它屬於 Python 測試的自動化。它在 Web 應用程序中用於自動化框架。支持多款主流瀏覽器，提供了功能豐富的API介面，常被用作爬蟲工具。使用它可以用許多編程語言編寫測試腳本，包括Java、C#、python、ruby等。還可以集成 Junit 和 TestNG 等鈾工具來管理測試用例並生成報告。

5、Skulpt

Skulpt 是一個用 Javascript 實現的在線 Python 執行環境，完全依靠瀏覽器端模擬實現Python運行的工具。不需要任何預處理、插件或伺服器端支持，只需編寫python並重新載入即可。因為代碼完全是在瀏覽器中運行的，所以不用擔心伺服器崩潰的問題。

關於分享!5個好用的Python工具，環球青藤小編就和大家分享到這里了，學習是永無止境的，學習一項技能更是受益終身，所以，只要肯努力學，什麼時候開始都不晚。如果您還想繼續了解關於python編程的學習方法及素材等內容，可以點擊本站其他文章學習。

Ⅷ 如何用Python做爬蟲

1）首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。

好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = "初始化頁"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。

通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。

3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...

那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？

我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。

所以，不要問怎麼入門，直接上路就好了：）

Ⅸ angularcli安裝需要python環境嗎

由於Angular4升級了，舊版的Angular-Cli支持性不是很好，所以Angular-Cli也需要升級更新，本質就是刪除掉以前的，再重新安裝就好了。

Angular-Cli is more than tool,it is a platform!

一、安裝Angular-Cli

經過n次的失敗安裝，終於在最後一次安裝成功，為了使同學們少走彎路，現將經驗寫下來：

1、查看你的node以及npm版本：

[html]view plain

node-v查看node版本
npm-v查看npm版本

要求所有版本都是最新的，不然可能會出錯。

2、設置淘寶鏡像，這樣下載東西就是從國內網站下載了，網速更快

[html]view plain

npmconfigsetregistry

3、因為angular-cli是用typescript寫的，所以要先裝這兩個：

[html]view plain

npminstall-gtypescripttypings

[html]view plain

4、安裝angular-cli:

[html]view plain

npminstall-gangular-cli@latest

上面這個語句安裝的最新版本是28.3，[email protected]:並且可能會報這個錯

[html]view plain

[email protected]:angular-clihasbeenrenamedto@angular/cli.Pleaseupdate
yourdependencies.

導航:首頁 > 編程語言 > ngandrewpython實現

ngandrewpython實現

與ngandrewpython實現相關的資料