导航:首页 > 编程语言 > pythonjieba词典

pythonjieba词典

发布时间:2022-09-04 06:31:14

① 为什么python jieba库安装成功了却用不了

1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2,支持繁体分词
3,支持自定义词典

② python中用pip装了jieba分词,怎么删除重新装

使用pip安装可以使用 pip uninstall jieba 卸载
然后使用pip install jieba 重装

③ 怎么是用python 语言 使用结巴分词 呢

Python代码

#encoding=utf-8
importjieba

seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默认模式

seg_list=jieba.cut("他来到了网易杭研大厦")
print",".join(seg_list)

输出:

FullMode:我/来/来到/到/北/北京/京/清/清华/清华大学/华/华大/大/大学/学

DefaultMode:我/来到/北京/清华大学

他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

④ python 怎么向textblob中加停用词

把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是jieba-0.38),把自己的自定义词典(选用,目的是为了分出原始词库中没有的词以及优先分出一些词),停用词词典(选用),需要分词的语料文件,调用jieba的python程序都放到这个文件夹里,就可以用啦。至于词典要什么样的格式,在网上一查就可以了。

之前有看到别的例子用自定义词典替换掉jieba本身词典,但是我试了一下好像效果不行,假设原始词典中有’云‘,’计算‘而没有’云计算‘,我想要分出’云计算‘这个词,加载自定义词典可以成功,但替换原始词典就不一定成功了。(当然我说的也不一定对)

还有停用词词典,我之前是把停用词在程序里存入一个列表,然后分每个词时都循环一遍列表,这样特别浪费时间。后来把停用词做成字典就很快了。

for eachline in fin可避免memory error。如果还是报memory error,那应该就是输入语料文件单行数据多长了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块import re
jieba.load_userdict("newdict.txt") #加载自定义词典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r') for eachWord in fstop:
stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')
fstop.close()

fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件
jieba.enable_parallel(4) #并行分词
for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格,并转为Unicode进行处理
line1 = re.sub("[0-9s+.!/_,$%^*()?;;:-【】+"']+|[+——!,;:。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),line)
wordList = list(jieba.cut(line1)) #用结巴分词,对每行内容进行分词
outStr = ''
for word in wordList: if word not in stopwords:
outStr += word
outStr += ' '
fout.write(outStr.strip().encode('utf-8') + ' ') #将分词好的结果写入到输出文件 fin.close()
fout.close()

splitSentence('ss.txt', 'tt.txt')

⑤ python jieba什么用

- python安装jieba分词,运行ytho程序,遇到错误“Nomoleamedjiea”,说明你需要安装jiea

⑥ python中怎么安装jieba库

首先点击桌面左下角的开始图标,然后选择运行。
(推荐教程:Python入门教程)
在弹出的窗口中输入cmd,然后点击确定。
输入:pip install jieba,然后按下回车键会自动开始安装。
安装成功后输入:python -m pip list,然后按下回车键来看下jieba库是否安装成功。
输入:python,按下回车键,进入python解释器。
输入代码:import jieba,导入这个库,如果不报错就时安装成功啦。

⑦ python 使用jieba分词出错

在你的第一行,用#coding=utf-8 试试

⑧ python里面 jieba.add_word()是永久添加的吗

github上面有一个说明文件,里面明确说了“使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典”。所以这个add_word的修改只是用于当前的程序。你换一个程序的话,需要从新添加。

⑨ python jieba分词如何去除停用词

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用词文件是utf8编码
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码,先将其转成utf8编码

⑩ 如何用python和jieba分词,统计词频

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!=' ':
c[x]+=1
print('常用词频度统计结果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

阅读全文

与pythonjieba词典相关的资料

热点内容
算式1256x56的简便算法 浏览:471
西安家电维修用什么app 浏览:245
服务器如何邀请好友进去 浏览:947
java栈队列区别 浏览:99
公共电影什么意思 浏览:347
港澳电影大胸美女古装剧 浏览:396
王牌战争怎么玩别的服务器 浏览:994
stata画散点图命令 浏览:123
伊波拉病毒全部女演员 浏览:873
华为20升级方舟编译器 浏览:369
android代码中设置图片 浏览:789
pdfmidi 浏览:869
云服务器实例规格有哪些 浏览:529
视觉原理pdf 浏览:923
文件夹应该保存在哪里 浏览:778
汽车app行业怎么样 浏览:454
基于单片机的系统设计 浏览:518
杭州程序员app 浏览:516
安卓手机铃声里的音乐怎么删除 浏览:104
变形金刚公司出版的电影 浏览:208