python分词添加词库_在python 环境下使用结巴分词自动导入文本分词提取关键词脚本大侠给个

⑴ python爬虫学习笔记——5. jieba库中文分词用法

整理自< 结巴中文分词的用法>

特点

演示文档

安装说明代码对 Python 2/3 均兼容

算法

主要功能

1. jieba 分词有三种模式，并且支持新建自定义分词器

代码示例

输出:

2. 添加自定义词典

载入词典

范例：自定义词典： https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例： https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

调整词典

代码示例：

3. 关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight 为是否一并返回关键词权重值，默认值为 False

allowPOS 仅包括指定词性的词，默认值为空，即不筛选

分词词性可参见博客：[词性参考]( blog.csdn.net/HHTNAN/ar...)

jieba.analyse.TFIDF(idf_path=None)

新建 TFIDF 实例，idf_path 为 IDF 频率文件

代码示例（关键词提取） https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径

用法： jieba.analyse.set_idf_path(file_name)

# file_name为自定义语料库的路径

自定义语料库示例： github.com/fxsjy/jieba/...

用法示例： github.com/fxsjy/jieba/...

关键词提取所使用停止词（Stop Words）文本语料库可以切换成自定义语料库的路径

用法： jieba.analyse.set_stop_words(file_name)

# file_name为自定义语料库的路径

自定义语料库示例： github.com/fxsjy/jieba/...

用法示例： github.com/fxsjy/jieba/...

关键词一并返回关键词权重值示例

用法示例： ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

直接使用，接口相同，注意默认过滤词性。

jieba.analyse.TextRank()

新建自定义 TextRank 实例

算法论文： TextRank: Bringing Order into Texts

基本思想:

使用示例: 见 test/demo.py

4. 词性标注
5. 并行分词
6. Tokenize：返回词语在原文的起止位置

输出：

输出

7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词

使用示例：python -m jieba news.txt > cut_result.txt

命令行选项（翻译）：

延迟加载机制 jieba 采用延迟加载，import jieba 和 jieba.Tokenizer()不会立即触发词典的加载，一旦有必要才开始加载词典构建前缀字典。

如果你想手工初始 jieba，也可以手动初始化。

下面部分内容整理自< python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库>

二、常用NLP扩充知识点(python2.7)

这几个点在知乎爬虫程序中很有用处

Part 1. 词频统计、降序排序

Part 2. 人工去停用词

标点符号、虚词、连词不在统计范围内

Part 3. 合并同义词

将同义词列举出来，按下Tab键分隔，把第一个词作为需要显示的词语，后面的词语作为要替代的同义词，一系列同义词放在一行。

这里，“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。

Part 4. 词语提及率

主要步骤：分词——过滤停用词（略）——替代同义词——计算词语在文本中出现的概率。

Part 5. 按词性提取

⑵ 在python 环境下，使用结巴分词，自动导入文本，分词，提取关键词.脚本大侠给个

#-*-coding:UTF-8-*-

importjieba

__author__='lpe234'


seg_list=jieba.cut("我来到北京天安门",cut_all=True)
print','.join(seg_list)

...
Loadingmodelfromcache/var/folders/sv//T/jieba.cache
我,来到,北京,天安,天安门
Loadingmodelcost0.433seconds.
.

Processfinishedwithexitcode0

热点内容

这是命令吗txt电子书下载发布：2025-04-22 19:46:51 浏览：940

adb命令导出媒体库发布：2025-04-22 19:45:16 浏览：826

华为云服务器多少钱发布：2025-04-22 19:34:16 浏览：366

连看世界app怎么用发布：2025-04-22 19:29:04 浏览：35

ipad解压专家怎么解压qq邮箱文件发布：2025-04-22 19:07:24 浏览：252

php712安装发布：2025-04-22 19:04:22 浏览：448

python远程桌面控制发布：2025-04-22 18:57:54 浏览：215

操作系统scan算法发布：2025-04-22 18:53:28 浏览：11

服务器板块有什么龙头发布：2025-04-22 18:49:11 浏览：74

我的世界服务器成员怎么开创造发布：2025-04-22 18:44:56 浏览：660

程序员郑州买房哪个区好发布：2025-04-22 18:44:52 浏览：204

程序员发怒发布：2025-04-22 18:33:06 浏览：823

安卓机看视频怎么没有小窗口发布：2025-04-22 18:25:00 浏览：456

minecraft服务器怎么布置发布：2025-04-22 18:13:39 浏览：306

怎么把安卓的东西转到已激活苹果发布：2025-04-22 17:57:46 浏览：852

停止服务doss命令发布：2025-04-22 17:54:47 浏览：878

u盘占内存但该文件夹为空发布：2025-04-22 17:49:14 浏览：612

服务器怎么更换重生点发布：2025-04-22 17:47:55 浏览：34

收费api调用平台源码发布：2025-04-22 17:34:06 浏览：648

安卓怎么自检病毒发布：2025-04-22 17:28:01 浏览：560

导航:首页 > 编程语言 > python分词添加词库

python分词添加词库

与python分词添加词库相关的资料