pythonjieba詞典_python中怎麼安裝jieba庫

① 為什麼python jieba庫安裝成功了卻用不了

1，支持三種分詞模式：
a,精確模式，試圖將句子最精確地切開，適合文本分析；
b,全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
c,搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。
2，支持繁體分詞
3，支持自定義詞典

② python中用pip裝了jieba分詞,怎麼刪除重新裝

使用pip安裝可以使用 pip uninstall jieba 卸載
然後使用pip install jieba 重裝

③ 怎麼是用python 語言使用結巴分詞呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出：

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處，「杭研」並沒有在詞典中，但是也被Viterbi演算法識別出來了)

④ python 怎麼向textblob中加停用詞

把語料從資料庫提取出來以後就要進行分詞啦，我是在linux環境下做的，先把jieba安裝好，然後找到內容是build jieba PKG-INFO setup.py test的那個文件夾（我這邊是jieba-0.38），把自己的自定義詞典（選用，目的是為了分出原始詞庫中沒有的詞以及優先分出一些詞），停用詞詞典（選用），需要分詞的語料文件，調用jieba的python程序都放到這個文件夾里，就可以用啦。至於詞典要什麼樣的格式，在網上一查就可以了。

之前有看到別的例子用自定義詞典替換掉jieba本身詞典，但是我試了一下好像效果不行，假設原始詞典中有』雲『，』計算『而沒有』雲計算『，我想要分出』雲計算『這個詞，載入自定義詞典可以成功，但替換原始詞典就不一定成功了。（當然我說的也不一定對）

還有停用詞詞典，我之前是把停用詞在程序里存入一個列表，然後分每個詞時都循環一遍列表，這樣特別浪費時間。後來把停用詞做成字典就很快了。

for eachline in fin可避免memory error。如果還是報memory error，那應該就是輸入語料文件單行數據多長了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #導入jieba模塊import re
jieba.load_userdict("newdict.txt") #載入自定義詞典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用詞做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r') for eachWord in fstop:
stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')
fstop.close()

fin = open(inputFile, 'r') #以讀的方式打開文件
fout = open(outputFile, 'w') #以寫得方式打開文件
jieba.enable_parallel(4) #並行分詞
for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出現的空格，並轉為Unicode進行處理
line1 = re.sub("[0-9s+.!/_,$%^*()?;；:-【】+"']+|[+——！，;:。？、~@#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),line)
wordList = list(jieba.cut(line1)) #用結巴分詞，對每行內容進行分詞
outStr = ''
for word in wordList: if word not in stopwords:
outStr += word
outStr += ' '
fout.write(outStr.strip().encode('utf-8') + ' ') #將分詞好的結果寫入到輸出文件 fin.close()
fout.close()

splitSentence('ss.txt', 'tt.txt')

⑤ python jieba什麼用

- python安裝jieba分詞,運行ytho程序,遇到錯誤「Nomoleamedjiea」,說明你需要安裝jiea

⑥ python中怎麼安裝jieba庫

首先點擊桌面左下角的開始圖標，然後選擇運行。
（推薦教程：Python入門教程）
在彈出的窗口中輸入cmd，然後點擊確定。
輸入：pip install jieba，然後按下回車鍵會自動開始安裝。
安裝成功後輸入：python -m pip list，然後按下回車鍵來看下jieba庫是否安裝成功。
輸入：python，按下回車鍵，進入python解釋器。
輸入代碼：import jieba，導入這個庫，如果不報錯就時安裝成功啦。

⑦ python 使用jieba分詞出錯

在你的第一行，用#coding=utf-8 試試

⑧ python裡面 jieba.add_word()是永久添加的嗎

github上面有一個說明文件，裡面明確說了「使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中動態修改詞典」。所以這個add_word的修改只是用於當前的程序。你換一個程序的話，需要從新添加。

⑨ python jieba分詞如何去除停用詞

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他編碼讀取停用詞表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用詞文件是utf8編碼
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#經過分詞得到的應該是unicode編碼，先將其轉成utf8編碼

⑩ 如何用python和jieba分詞，統計詞頻

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!='
':
c[x]+=1
print('常用詞頻度統計結果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

導航:首頁 > 編程語言 > pythonjieba詞典

pythonjieba詞典

與pythonjieba詞典相關的資料