1、learn-python3
这个存储库一共有19本Jupyter笔记本。它涵盖了字符串和条件之类的基础知识,然后讨论了面向对象编程,以及如何处理异常和一些Python标准库的特性等。每一个主题都有一个“notebook”链接,它会向你介绍该主题和一些示例代码,当你完成这些内容之后,还有一个练习链接,点击后你就可以做一些测试题。
项目地址:https://github.com/jerry-git/learn-python3
2、learn-python
这个存储库还可以作为Python的介绍,帮助你从初级水平上升至中级,这里的中级指的是熟练地使用这种编程语言,而不仅仅是简单的循环和算法。该存储库是一个Python脚本集合,每个脚本都是一个核心类别的子主题,比如“操作符”、“数据类型”和“控制流”。
你不必完整地学习该课程,正如作者指出的那样,你还可以将存储库用作备忘单,在需要的时候,快速查找,查看文档,查看代码,然后运行测试,看代码是否能正常运行,是否按照代码准则编写。
项目地址:https://github.com/trekhleb/learn-python/blob/master/src/control_flow/test_if.py
3、full-speed-python
该存储库快速介绍了字符串和列表等基础知识,然后快速深入到更高级的主题,“类”和“异步编程”等,作者在写这本书时采用了一种实用的方法,用代码示例简要介绍了每个主题,然后直接跳到练习问题,让读者可以自己尝试。你可以在项目详情页下载pdf/epub文件。
项目地址:https://github.com/joaoventura/full-speed-python
关于3个最佳学习Python编程的开源库,青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容,可以点击本站的其他文章进行学习。
❷ python爬虫学习笔记——5. jieba库中文分词用法
整理自< 结巴中文分词的用法>
特点
演示文档
安装说明 代码对 Python 2/3 均兼容
算法
主要功能
1. jieba 分词有三种模式,并且支持新建自定义分词器
代码示例
输出:
2. 添加自定义词典
载入词典
范例: 自定义词典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
调整词典
代码示例:
3. 关键词提取
基于 TF-IDF 算法的关键词抽取
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
分词词性可参见博客:[词性参考]( blog.csdn.net/HHTNAN/ar...)
jieba.analyse.TFIDF(idf_path=None)
新建 TFIDF 实例,idf_path 为 IDF 频率文件
代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
用法: jieba.analyse.set_idf_path(file_name)
# file_name为自定义语料库的路径
自定义语料库示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
用法: jieba.analyse.set_stop_words(file_name)
# file_name为自定义语料库的路径
自定义语料库示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
关键词一并返回关键词权重值示例
用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py
基于 TextRank 算法的关键词抽取
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
直接使用,接口相同,注意默认过滤词性。
jieba.analyse.TextRank()
新建自定义 TextRank 实例
算法论文: TextRank: Bringing Order into Texts
基本思想:
使用示例: 见 test/demo.py
4. 词性标注
5. 并行分词
6. Tokenize:返回词语在原文的起止位置
输出:
输出
7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词
使用示例:python -m jieba news.txt > cut_result.txt
命令行选项(翻译):
延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer()不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。
如果你想手工初始 jieba,也可以手动初始化。
下面部分内容整理自< python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库>
二、 常用NLP扩充知识点(python2.7)
这几个点在知乎爬虫程序中很有用处
Part 1. 词频统计、降序排序
Part 2. 人工去停用词
标点符号、虚词、连词不在统计范围内
Part 3. 合并同义词
将同义词列举出来,按下Tab键分隔,把第一个词作为需要显示的词语,后面的词语作为要替代的同义词,一系列同义词放在一行。
这里,“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。
Part 4. 词语提及率
主要步骤:分词——过滤停用词(略)——替代同义词——计算词语在文本中出现的概率。
Part 5. 按词性提取