1、learn-python3
這個存儲庫一共有19本Jupyter筆記本。它涵蓋了字元串和條件之類的基礎知識,然後討論了面向對象編程,以及如何處理異常和一些Python標准庫的特性等。每一個主題都有一個“notebook”鏈接,它會向你介紹該主題和一些示例代碼,當你完成這些內容之後,還有一個練習鏈接,點擊後你就可以做一些測試題。
項目地址:https://github.com/jerry-git/learn-python3
2、learn-python
這個存儲庫還可以作為Python的介紹,幫助你從初級水平上升至中級,這里的中級指的是熟練地使用這種編程語言,而不僅僅是簡單的循環和演算法。該存儲庫是一個Python腳本集合,每個腳本都是一個核心類別的子主題,比如“操作符”、“數據類型”和“控制流”。
你不必完整地學習該課程,正如作者指出的那樣,你還可以將存儲庫用作備忘單,在需要的時候,快速查找,查看文檔,查看代碼,然後運行測試,看代碼是否能正常運行,是否按照代碼准則編寫。
項目地址:https://github.com/trekhleb/learn-python/blob/master/src/control_flow/test_if.py
3、full-speed-python
該存儲庫快速介紹了字元串和列表等基礎知識,然後快速深入到更高級的主題,“類”和“非同步編程”等,作者在寫這本書時採用了一種實用的方法,用代碼示例簡要介紹了每個主題,然後直接跳到練習問題,讓讀者可以自己嘗試。你可以在項目詳情頁下載pdf/epub文件。
項目地址:https://github.com/joaoventura/full-speed-python
關於3個最佳學習Python編程的開源庫,青藤小編就和您分享到這里了。如果您對python編程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於python編程的技巧及素材等內容,可以點擊本站的其他文章進行學習。
❷ python爬蟲學習筆記——5. jieba庫中文分詞用法
整理自< 結巴中文分詞的用法>
特點
演示文檔
安裝說明 代碼對 Python 2/3 均兼容
演算法
主要功能
1. jieba 分詞有三種模式,並且支持新建自定義分詞器
代碼示例
輸出:
2. 添加自定義詞典
載入詞典
範例: 自定義詞典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
調整詞典
代碼示例:
3. 關鍵詞提取
基於 TF-IDF 演算法的關鍵詞抽取
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 為待提取的文本
topK 為返回幾個 TF/IDF 權重最大的關鍵詞,默認值為 20
withWeight 為是否一並返回關鍵詞權重值,默認值為 False
allowPOS 僅包括指定詞性的詞,默認值為空,即不篩選
分詞詞性可參見博客:[詞性參考]( blog.csdn.net/HHTNAN/ar...)
jieba.analyse.TFIDF(idf_path=None)
新建 TFIDF 實例,idf_path 為 IDF 頻率文件
代碼示例 (關鍵詞提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
關鍵詞提取所使用逆向文件頻率(IDF)文本語料庫可以切換成自定義語料庫的路徑
用法: jieba.analyse.set_idf_path(file_name)
# file_name為自定義語料庫的路徑
自定義語料庫示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
關鍵詞提取所使用停止詞(Stop Words)文本語料庫可以切換成自定義語料庫的路徑
用法: jieba.analyse.set_stop_words(file_name)
# file_name為自定義語料庫的路徑
自定義語料庫示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
關鍵詞一並返回關鍵詞權重值示例
用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py
基於 TextRank 演算法的關鍵詞抽取
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
直接使用,介面相同,注意默認過濾詞性。
jieba.analyse.TextRank()
新建自定義 TextRank 實例
演算法論文: TextRank: Bringing Order into Texts
基本思想:
使用示例: 見 test/demo.py
4. 詞性標注
5. 並行分詞
6. Tokenize:返回詞語在原文的起止位置
輸出:
輸出
7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分詞
使用示例:python -m jieba news.txt > cut_result.txt
命令行選項(翻譯):
延遲載入機制 jieba 採用延遲載入,import jieba 和 jieba.Tokenizer()不會立即觸發詞典的載入,一旦有必要才開始載入詞典構建前綴字典。
如果你想手工初始 jieba,也可以手動初始化。
下面部分內容整理自< python jieba分詞(結巴分詞)、提取詞,載入詞,修改詞頻,定義詞庫>
二、 常用NLP擴充知識點(python2.7)
這幾個點在知乎爬蟲程序中很有用處
Part 1. 詞頻統計、降序排序
Part 2. 人工去停用詞
標點符號、虛詞、連詞不在統計范圍內
Part 3. 合並同義詞
將同義詞列舉出來,按下Tab鍵分隔,把第一個詞作為需要顯示的詞語,後面的詞語作為要替代的同義詞,一系列同義詞放在一行。
這里,「北京」、「首都」、「京城」、「北平城」、「故都」為同義詞。
Part 4. 詞語提及率
主要步驟:分詞——過濾停用詞(略)——替代同義詞——計算詞語在文本中出現的概率。
Part 5. 按詞性提取