導航:首頁 > 編程語言 > pythonjieba詞典

pythonjieba詞典

發布時間:2022-09-04 06:31:14

① 為什麼python jieba庫安裝成功了卻用不了

1,支持三種分詞模式:
a,精確模式,試圖將句子最精確地切開,適合文本分析;
b,全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;
c,搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞。
2,支持繁體分詞
3,支持自定義詞典

② python中用pip裝了jieba分詞,怎麼刪除重新裝

使用pip安裝可以使用 pip uninstall jieba 卸載
然後使用pip install jieba 重裝

③ 怎麼是用python 語言 使用結巴分詞 呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出:

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)

④ python 怎麼向textblob中加停用詞

把語料從資料庫提取出來以後就要進行分詞啦,我是在linux環境下做的,先把jieba安裝好,然後找到內容是build jieba PKG-INFO setup.py test的那個文件夾(我這邊是jieba-0.38),把自己的自定義詞典(選用,目的是為了分出原始詞庫中沒有的詞以及優先分出一些詞),停用詞詞典(選用),需要分詞的語料文件,調用jieba的python程序都放到這個文件夾里,就可以用啦。至於詞典要什麼樣的格式,在網上一查就可以了。

之前有看到別的例子用自定義詞典替換掉jieba本身詞典,但是我試了一下好像效果不行,假設原始詞典中有』雲『,』計算『而沒有』雲計算『,我想要分出』雲計算『這個詞,載入自定義詞典可以成功,但替換原始詞典就不一定成功了。(當然我說的也不一定對)

還有停用詞詞典,我之前是把停用詞在程序里存入一個列表,然後分每個詞時都循環一遍列表,這樣特別浪費時間。後來把停用詞做成字典就很快了。

for eachline in fin可避免memory error。如果還是報memory error,那應該就是輸入語料文件單行數據多長了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #導入jieba模塊import re
jieba.load_userdict("newdict.txt") #載入自定義詞典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用詞做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r') for eachWord in fstop:
stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')
fstop.close()

fin = open(inputFile, 'r') #以讀的方式打開文件
fout = open(outputFile, 'w') #以寫得方式打開文件
jieba.enable_parallel(4) #並行分詞
for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出現的空格,並轉為Unicode進行處理
line1 = re.sub("[0-9s+.!/_,$%^*()?;;:-【】+"']+|[+——!,;:。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),line)
wordList = list(jieba.cut(line1)) #用結巴分詞,對每行內容進行分詞
outStr = ''
for word in wordList: if word not in stopwords:
outStr += word
outStr += ' '
fout.write(outStr.strip().encode('utf-8') + ' ') #將分詞好的結果寫入到輸出文件 fin.close()
fout.close()

splitSentence('ss.txt', 'tt.txt')

⑤ python jieba什麼用

- python安裝jieba分詞,運行ytho程序,遇到錯誤「Nomoleamedjiea」,說明你需要安裝jiea

⑥ python中怎麼安裝jieba庫

首先點擊桌面左下角的開始圖標,然後選擇運行。
(推薦教程:Python入門教程)
在彈出的窗口中輸入cmd,然後點擊確定。
輸入:pip install jieba,然後按下回車鍵會自動開始安裝。
安裝成功後輸入:python -m pip list,然後按下回車鍵來看下jieba庫是否安裝成功。
輸入:python,按下回車鍵,進入python解釋器。
輸入代碼:import jieba,導入這個庫,如果不報錯就時安裝成功啦。

⑦ python 使用jieba分詞出錯

在你的第一行,用#coding=utf-8 試試

⑧ python裡面 jieba.add_word()是永久添加的嗎

github上面有一個說明文件,裡面明確說了「使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中動態修改詞典」。所以這個add_word的修改只是用於當前的程序。你換一個程序的話,需要從新添加。

⑨ python jieba分詞如何去除停用詞

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他編碼讀取停用詞表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用詞文件是utf8編碼
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#經過分詞得到的應該是unicode編碼,先將其轉成utf8編碼

⑩ 如何用python和jieba分詞,統計詞頻

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!=' ':
c[x]+=1
print('常用詞頻度統計結果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

閱讀全文

與pythonjieba詞典相關的資料

熱點內容
unix網路編程卷4 瀏覽:805
找靚機app下單什麼時候發貨 瀏覽:411
android一個應用兩個進程 瀏覽:801
linux硬碟復制 瀏覽:806
php圖片伺服器搭建 瀏覽:798
下載壓縮文件怎麼打開 瀏覽:192
新建文件夾叫什麼名字 瀏覽:565
windows20的開機命令 瀏覽:332
微信一般在電腦的那個文件夾 瀏覽:509
go在win7下編譯特別慢 瀏覽:256
光遇ios耳機安卓為什麼沒有 瀏覽:904
小米手機桌面文件夾經常自動散開 瀏覽:607
小米電話手錶用什麼app進行設置 瀏覽:265
虛擬列印機pdf下載 瀏覽:671
jdk編譯運行方法 瀏覽:459
android執行shell命令 瀏覽:349
程序員頭像女 瀏覽:57
有什麼可以變頭發顏色的app 瀏覽:935
玩具解壓屋游戲下載 瀏覽:849
我的世界拔刀劍伺服器地址id 瀏覽:891