导航:首页 > 编程语言 > python分词添加词库

python分词添加词库

发布时间:2025-03-01 18:13:05

python爬虫学习笔记——5. jieba库中文分词用法

整理自< 结巴中文分词的用法>

特点

演示文档

安装说明 代码对 Python 2/3 均兼容

算法

主要功能

1. jieba 分词有三种模式,并且支持新建自定义分词器

代码示例

输出:

2. 添加自定义词典

载入词典

范例: 自定义词典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

调整词典

代码示例:

3. 关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20

withWeight 为是否一并返回关键词权重值,默认值为 False

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

分词词性可参见博客:[词性参考]( blog.csdn.net/HHTNAN/ar...)

jieba.analyse.TFIDF(idf_path=None)

新建 TFIDF 实例,idf_path 为 IDF 频率文件

代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_idf_path(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_stop_words(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词一并返回关键词权重值示例

用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

直接使用,接口相同,注意默认过滤词性。

jieba.analyse.TextRank()

新建自定义 TextRank 实例

算法论文: TextRank: Bringing Order into Texts

基本思想:

使用示例: 见 test/demo.py

4. 词性标注
5. 并行分词
6. Tokenize:返回词语在原文的起止位置

输出:

输出

7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词

使用示例:python -m jieba news.txt > cut_result.txt

命令行选项(翻译):

延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer()不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。

如果你想手工初始 jieba,也可以手动初始化。

下面部分内容整理自< python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库>

二、 常用NLP扩充知识点(python2.7)

这几个点在知乎爬虫程序中很有用处

Part 1. 词频统计、降序排序

Part 2. 人工去停用词

标点符号、虚词、连词不在统计范围内

Part 3. 合并同义词

将同义词列举出来,按下Tab键分隔,把第一个词作为需要显示的词语,后面的词语作为要替代的同义词,一系列同义词放在一行。

这里,“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。

Part 4. 词语提及率

主要步骤:分词——过滤停用词(略)——替代同义词——计算词语在文本中出现的概率。

Part 5. 按词性提取

⑵ 在python 环境下,使用结巴分词,自动导入文本,分词,提取关键词.脚本 大侠给个

#-*-coding:UTF-8-*-

importjieba

__author__='lpe234'


seg_list=jieba.cut("我来到北京天安门",cut_all=True)
print','.join(seg_list)
...
Loadingmodelfromcache/var/folders/sv//T/jieba.cache
我,来到,北京,天安,天安门
Loadingmodelcost0.433seconds.
.

Processfinishedwithexitcode0

阅读全文

与python分词添加词库相关的资料

热点内容
标准日本语pdf高清版 浏览:837
ide导出的二进制编译文件 浏览:969
程序员会引起颈椎病吗 浏览:63
cuda文件编译 浏览:3
为什么服务器费用这么高 浏览:977
编译错误什么原因 浏览:233
人民文学pdf下载 浏览:301
进外代理服务器地址 浏览:978
linux命令行mysql 浏览:210
pdf注释删除 浏览:352
同步器源码大漠 浏览:953
合家欢在app上面哪里找 浏览:744
51单片机串口模块 浏览:117
负数的符号源码 浏览:17
学服务器需要什么 浏览:683
服务器被安装后怎么恢复 浏览:80
python的ascll编码 浏览:7
cadopen命令死机 浏览:265
腾讯云服务器用什么路由器 浏览:670
酷狗cue放在哪个文件夹 浏览:220