导航:首页 > 编程语言 > python笔记github

python笔记github

发布时间:2025-04-01 18:35:06

❶ 收藏!3个最佳学习python编程的开源库

1、learn-python3


这个存储库一共有19本Jupyter笔记本。它涵盖了字符串和条件之类的基础知识,然后讨论了面向对象编程,以及如何处理异常和一些Python标准库的特性等。每一个主题都有一个“notebook”链接,它会向你介绍该主题和一些示例代码,当你完成这些内容之后,还有一个练习链接,点击后你就可以做一些测试题。


项目地址:https://github.com/jerry-git/learn-python3


2、learn-python


这个存储库还可以作为Python的介绍,帮助你从初级水平上升至中级,这里的中级指的是熟练地使用这种编程语言,而不仅仅是简单的循环和算法。该存储库是一个Python脚本集合,每个脚本都是一个核心类别的子主题,比如“操作符”、“数据类型”和“控制流”。


你不必完整地学习该课程,正如作者指出的那样,你还可以将存储库用作备忘单,在需要的时候,快速查找,查看文档,查看代码,然后运行测试,看代码是否能正常运行,是否按照代码准则编写。


项目地址:https://github.com/trekhleb/learn-python/blob/master/src/control_flow/test_if.py


3、full-speed-python


该存储库快速介绍了字符串和列表等基础知识,然后快速深入到更高级的主题,“类”和“异步编程”等,作者在写这本书时采用了一种实用的方法,用代码示例简要介绍了每个主题,然后直接跳到练习问题,让读者可以自己尝试。你可以在项目详情页下载pdf/epub文件。


项目地址:https://github.com/joaoventura/full-speed-python


关于3个最佳学习Python编程的开源库,青藤小编就和您分享到这里了。如果您对python编程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于python编程的技巧及素材等内容,可以点击本站的其他文章进行学习。

❷ python爬虫学习笔记——5. jieba库中文分词用法

整理自< 结巴中文分词的用法>

特点

演示文档

安装说明 代码对 Python 2/3 均兼容

算法

主要功能

1. jieba 分词有三种模式,并且支持新建自定义分词器

代码示例

输出:

2. 添加自定义词典

载入词典

范例: 自定义词典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

调整词典

代码示例:

3. 关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20

withWeight 为是否一并返回关键词权重值,默认值为 False

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

分词词性可参见博客:[词性参考]( blog.csdn.net/HHTNAN/ar...)

jieba.analyse.TFIDF(idf_path=None)

新建 TFIDF 实例,idf_path 为 IDF 频率文件

代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_idf_path(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_stop_words(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词一并返回关键词权重值示例

用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

直接使用,接口相同,注意默认过滤词性。

jieba.analyse.TextRank()

新建自定义 TextRank 实例

算法论文: TextRank: Bringing Order into Texts

基本思想:

使用示例: 见 test/demo.py

4. 词性标注
5. 并行分词
6. Tokenize:返回词语在原文的起止位置

输出:

输出

7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词

使用示例:python -m jieba news.txt > cut_result.txt

命令行选项(翻译):

延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer()不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。

如果你想手工初始 jieba,也可以手动初始化。

下面部分内容整理自< python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库>

二、 常用NLP扩充知识点(python2.7)

这几个点在知乎爬虫程序中很有用处

Part 1. 词频统计、降序排序

Part 2. 人工去停用词

标点符号、虚词、连词不在统计范围内

Part 3. 合并同义词

将同义词列举出来,按下Tab键分隔,把第一个词作为需要显示的词语,后面的词语作为要替代的同义词,一系列同义词放在一行。

这里,“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。

Part 4. 词语提及率

主要步骤:分词——过滤停用词(略)——替代同义词——计算词语在文本中出现的概率。

Part 5. 按词性提取

阅读全文

与python笔记github相关的资料

热点内容
excel打开文件用宏时显示编译错误 浏览:354
plc动态密码算法程序 浏览:830
株洲java程序员寒假班 浏览:754
印度app有什么 浏览:315
帕萨特压缩机多少钱 浏览:33
广东云服务器平台租用云空间 浏览:1
买华为到哪个正规app 浏览:79
创世纪pdf 浏览:935
路由器mtu设置命令 浏览:176
命令行参数c语言入门 浏览:263
解压汽车绿本有期限吗 浏览:655
vmwarelinux网络配置 浏览:305
数学与程序员的爱恨情仇 浏览:156
gee引擎技能在哪个文件夹 浏览:521
缓解压力手势抖音原图 浏览:126
加密货币上映日期 浏览:146
php数据挖掘 浏览:80
微信号怎么能加密 浏览:128
python标准库ma 浏览:948
aes256加密算法java 浏览:228