Ⅰ python 畫好看的雲詞圖
詞雲圖是數據分析中比較常見的一種可視化手段。詞雲圖,也叫文字雲,是對文本中出現頻率較高的 關鍵詞 予以視覺化的展現,出現越多的詞,在詞雲圖中展示越顯眼。詞雲圖過濾掉大量低頻低質的文本信息,因此只要一眼掃過文本就可 領略文章主旨 。
例如👆上面這張圖,看一眼就知道肯定是新華網的新聞。
那生成一張詞雲圖的主要步驟有哪些?這里使用 Python 來實現,主要分三步:
首先是「結巴」中文分詞 jieba 的安裝。
對於英文文本,word_cloud 可以直接對文本源生成詞雲圖。但是對中文的支持沒有那麼給力,所以需要先使用 jieba 對中文文本進行分詞,把文章變成詞語,然後再生成詞雲圖。例如:
jieba.cut 分詞:方法接受三個輸入參數,sentence 需要分詞的字元串;cut_all 用來控制是否採用全模式;HMM 用來控制是否使用 HMM 模型。
jieba.cut_for_search 分詞:方法接受兩個參數,sentence 需要分詞的字元串;是否使用 HMM 模型。該方法適合用於搜索引擎構建倒排索引的分詞,粒度比較細。
jieba.analyse.textrank 使用 TextRank 演算法從句子中提取關鍵詞。
然後安裝 wordcloud 詞雲圖庫。
如果執行上面命令後,顯示 success,那麼恭喜你,安裝成功了。
我就遇到了 Failed building wheel for wordcloud 的錯誤。於是先安裝 xcode-select, 再安裝 wordcloud 即可(無需安裝 Xcode)。
wordcloud 庫把詞雲當作一個 WordCloud 對象,wordcloud.WordCloud() 代表一個文本對應的詞雲,可以根據文本中詞語出現的頻率等參數繪制詞雲,繪制詞雲的形狀、尺寸和顏色。
1、首先導入文本數據並進行簡單的文本處理
2、分詞
3、設置遮罩
注意:
1、默認字體不支持中文,如果需要顯示中文,需要設置中文字體,否則會亂碼。
2、設置遮罩時,會自動將圖片非白色部分填充,且圖片越清晰,運行速度越快
其中 WordCloud 是雲詞圖最重要的對象,其主要參數描述如下:
效果如下圖:
上小結是將文章中所有內容進行分詞,輸出了所有詞,但很多時候,我們有進一步的需求。例如:
1、只需要前 100 個關鍵詞就夠了。
2、不需要五顏六色的詞語,應與遮罩圖片顏色一致。
100個關鍵詞,我們在分詞時使用 TextRank 演算法從句子中提取關鍵詞。
遮罩顏色可通過設置 WordCloud 的 color_func 屬性。
最終效果如下:
Ⅱ python生成詞雲,要求頻率越小生成的字詞越大,老師的要求,請各位大佬解答,感謝,急急急!!!
按照常理可以實現,但是python是智能的,不能安裝常理算。關注點有點偏,老師不是刁難學生,而是幫助學生進步。你可以去問問老師具體的思路,祝你取得更大的進步。
Ⅲ 使用python wordcloud庫實現詞雲,教你兩招輕松搞定
wordcloud庫簡介
python中的word cloud庫是一個用來製作詞雲的第三方庫
安裝wordcloud 庫
pip install wordcloud123
使用w = wordcloud.WordCloud() 創建一個詞雲對象
2.WordCloud() 參數介紹
3.實現效果
4.問題
並沒有按照詞雲的樣式展示,這里需要使用 jieba庫進行分詞
安裝jieba庫
pip install jieba
5.使用jieba庫進行分詞
6.效果
將txt文本中的內容生成詞雲
獲取文件中的內容
f = open('./xxx.txt', 'r', encoding='utf-8')
text = f.read()
說明
encoding=『utf-8』 這個參數表示 讀取的內容以utf-8的編碼方式讀取文件
如果沒有這個參數,會出現如下的報錯信息
Ⅳ 如何使用python來實現個性化詞雲的示例代碼分享
#coding=utf-8
#usingpython27
fromosimportpath
fromPILimportImage
importnumpyasnp
importmatplotlib.pyplotasplt
fromwordcloudimportWordCloud,STOPWORDS,ImageColorGenerator
#d=path.dirname(__file__)
#Readthewholetext.
text=open(r'C:StudyPythonwordcloud_alice.txt').read()
#readthemask/colorimagetakenfrom
#http://jirkavinse.deviantart.com/art/quot-Real-Life-quot-Alice-282261010
alice_coloring=np.array(Image.open(r'C:StudyPythonwordcloud_alice_color.png'))
stopwords=set(STOPWORDS)
stopwords.add("said")
wc=WordCloud(background_color="white",max_words=2000,mask=alice_coloring,
stopwords=stopwords,max_font_size=40,random_state=42)
#generatewordcloud
wc.generate(text)
#createcoloringfromimage
image_colors=ImageColorGenerator(alice_coloring)
#show
plt.imshow(wc,interpolation="bilinear")
plt.axis("off")
plt.figure()
#recolorwordcloudandshow
#wecouldalsogivecolor_func=image_
plt.imshow(wc.recolor(color_func=image_colors),interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.imshow(alice_coloring,cmap=plt.cm.gray,interpolation="bilinear")
plt.axis("off")
plt.show()
執行這個代碼還需要兩個文件, 網路知道不能上傳, 可以用扣或者私我傳給你
運行結果:
Ⅳ 為什麼用python畫的詞雲很模糊
cloud = WordCloud(
width=1000,height=600,
min_font_size=20,
max_words=200,
max_font_size=80
)
繪制詞雲的時候把圖片的寬和高加大一點,然後字體也加大一點
Ⅵ python製作詞雲的時候怎麼使文字密集一點
選用的詞越多(max_words),樣本越大(文本的長度),就越接近正態分布。
在正態分布的情況下,低頻詞就相對多(長尾定率)。
然後就是調整max_font_size與min_font_size以及relative_scaling了,這三個參數的取值對表觀上的密集程度有影響。
如果max_words小,長尾不明顯,詞雲中小字就少,很多地方沒有詞去填補空白,就顯示得不密集。
如果max_font_size與min_font_size沒拉開,低頻詞(長尾部分)就沒有小到足夠在高頻詞的空白中填入,字中空白就讓整個雲顯得不密集。
最後調整relative_scaling使交叉方向的比例合適,一些詞的空白處就能填入一些較短的低頻詞進一步減少空白。
Ⅶ python如何做詞雲 一步一步教你如何做
如果你之前沒有編程基礎,沒關系。希望你不要限於瀏覽,而是親自動手嘗試一番。到完成的那一步,你不僅可以做出第一張詞雲圖,而且這還將是你的第一個有用的編程作品。
1、請確保你的python環境沒有問題,用的開發工具是VsCode,首先你要在Python擴展中安裝python開發環境(當然,這不是為你的windows安裝python)。
2、那麼你還需要安裝所需要的第三方庫,那麼在VSCode中並沒有PyCharm那麼專業,這里需要獲得你自己的Python腳本位置。
3、我們可以發現裡面有一個名為pip.exe文件,這個文件就是python官方給我們去安裝python第三方庫的一個程序,那麼我們可以在VsCode的終端中就可以去通過它,這也是我們為什麼要獲取python安裝位置的根本原因。
4、python做詞雲呢,需要導入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平台圖像處理標准庫,功能是真的強大。首先需要讀取文件 。
5、如果python引入無誤,並代碼無誤,那麼會彈出你生成的圖片,該圖片會儲存在你的系統。