導航:首頁 > 編程語言 > python製作詞雲設置字體

python製作詞雲設置字體

發布時間:2023-10-28 10:39:20

python 畫好看的雲詞圖

詞雲圖是數據分析中比較常見的一種可視化手段。詞雲圖,也叫文字雲,是對文本中出現頻率較高的 關鍵詞 予以視覺化的展現,出現越多的詞,在詞雲圖中展示越顯眼。詞雲圖過濾掉大量低頻低質的文本信息,因此只要一眼掃過文本就可 領略文章主旨

例如👆上面這張圖,看一眼就知道肯定是新華網的新聞。

那生成一張詞雲圖的主要步驟有哪些?這里使用 Python 來實現,主要分三步:

首先是「結巴」中文分詞 jieba 的安裝。

對於英文文本,word_cloud 可以直接對文本源生成詞雲圖。但是對中文的支持沒有那麼給力,所以需要先使用 jieba 對中文文本進行分詞,把文章變成詞語,然後再生成詞雲圖。例如:

jieba.cut 分詞:方法接受三個輸入參數,sentence 需要分詞的字元串;cut_all 用來控制是否採用全模式;HMM 用來控制是否使用 HMM 模型。

jieba.cut_for_search 分詞:方法接受兩個參數,sentence 需要分詞的字元串;是否使用 HMM 模型。該方法適合用於搜索引擎構建倒排索引的分詞,粒度比較細。

jieba.analyse.textrank 使用 TextRank 演算法從句子中提取關鍵詞。

然後安裝 wordcloud 詞雲圖庫。

如果執行上面命令後,顯示 success,那麼恭喜你,安裝成功了。
我就遇到了 Failed building wheel for wordcloud 的錯誤。於是先安裝 xcode-select, 再安裝 wordcloud 即可(無需安裝 Xcode)。

wordcloud 庫把詞雲當作一個 WordCloud 對象,wordcloud.WordCloud() 代表一個文本對應的詞雲,可以根據文本中詞語出現的頻率等參數繪制詞雲,繪制詞雲的形狀、尺寸和顏色。

1、首先導入文本數據並進行簡單的文本處理
2、分詞
3、設置遮罩

注意:
1、默認字體不支持中文,如果需要顯示中文,需要設置中文字體,否則會亂碼。
2、設置遮罩時,會自動將圖片非白色部分填充,且圖片越清晰,運行速度越快

其中 WordCloud 是雲詞圖最重要的對象,其主要參數描述如下:

效果如下圖:

上小結是將文章中所有內容進行分詞,輸出了所有詞,但很多時候,我們有進一步的需求。例如:
1、只需要前 100 個關鍵詞就夠了。
2、不需要五顏六色的詞語,應與遮罩圖片顏色一致。

100個關鍵詞,我們在分詞時使用 TextRank 演算法從句子中提取關鍵詞。
遮罩顏色可通過設置 WordCloud 的 color_func 屬性。

最終效果如下:

Ⅱ python生成詞雲,要求頻率越小生成的字詞越大,老師的要求,請各位大佬解答,感謝,急急急!!!

按照常理可以實現,但是python是智能的,不能安裝常理算。關注點有點偏,老師不是刁難學生,而是幫助學生進步。你可以去問問老師具體的思路,祝你取得更大的進步。

Ⅲ 使用python wordcloud庫實現詞雲,教你兩招輕松搞定

wordcloud庫簡介

python中的word cloud庫是一個用來製作詞雲的第三方庫

安裝wordcloud 庫

pip install wordcloud123

使用w = wordcloud.WordCloud() 創建一個詞雲對象

2.WordCloud() 參數介紹

3.實現效果

4.問題

並沒有按照詞雲的樣式展示,這里需要使用 jieba庫進行分詞

安裝jieba庫

pip install jieba

5.使用jieba庫進行分詞

6.效果

將txt文本中的內容生成詞雲

獲取文件中的內容

f = open('./xxx.txt', 'r', encoding='utf-8')

 text = f.read()

說明

encoding=『utf-8』 這個參數表示 讀取的內容以utf-8的編碼方式讀取文件

如果沒有這個參數,會出現如下的報錯信息

Ⅳ 如何使用python來實現個性化詞雲的示例代碼分享

#coding=utf-8
#usingpython27
fromosimportpath
fromPILimportImage
importnumpyasnp
importmatplotlib.pyplotasplt

fromwordcloudimportWordCloud,STOPWORDS,ImageColorGenerator

#d=path.dirname(__file__)

#Readthewholetext.
text=open(r'C:StudyPythonwordcloud_alice.txt').read()

#readthemask/colorimagetakenfrom
#http://jirkavinse.deviantart.com/art/quot-Real-Life-quot-Alice-282261010
alice_coloring=np.array(Image.open(r'C:StudyPythonwordcloud_alice_color.png'))
stopwords=set(STOPWORDS)
stopwords.add("said")

wc=WordCloud(background_color="white",max_words=2000,mask=alice_coloring,
stopwords=stopwords,max_font_size=40,random_state=42)
#generatewordcloud
wc.generate(text)

#createcoloringfromimage
image_colors=ImageColorGenerator(alice_coloring)

#show
plt.imshow(wc,interpolation="bilinear")
plt.axis("off")
plt.figure()
#recolorwordcloudandshow
#wecouldalsogivecolor_func=image_
plt.imshow(wc.recolor(color_func=image_colors),interpolation="bilinear")
plt.axis("off")
plt.figure()
plt.imshow(alice_coloring,cmap=plt.cm.gray,interpolation="bilinear")
plt.axis("off")
plt.show()

執行這個代碼還需要兩個文件, 網路知道不能上傳, 可以用扣或者私我傳給你

運行結果:

Ⅳ 為什麼用python畫的詞雲很模糊

cloud = WordCloud(
width=1000,height=600,
min_font_size=20,
max_words=200,
max_font_size=80
)
繪制詞雲的時候把圖片的寬和高加大一點,然後字體也加大一點

Ⅵ python製作詞雲的時候怎麼使文字密集一點

選用的詞越多(max_words),樣本越大(文本的長度),就越接近正態分布。

在正態分布的情況下,低頻詞就相對多(長尾定率)。
然後就是調整max_font_size與min_font_size以及relative_scaling了,這三個參數的取值對表觀上的密集程度有影響。
如果max_words小,長尾不明顯,詞雲中小字就少,很多地方沒有詞去填補空白,就顯示得不密集。
如果max_font_size與min_font_size沒拉開,低頻詞(長尾部分)就沒有小到足夠在高頻詞的空白中填入,字中空白就讓整個雲顯得不密集。
最後調整relative_scaling使交叉方向的比例合適,一些詞的空白處就能填入一些較短的低頻詞進一步減少空白。

Ⅶ python如何做詞雲 一步一步教你如何做

如果你之前沒有編程基礎,沒關系。希望你不要限於瀏覽,而是親自動手嘗試一番。到完成的那一步,你不僅可以做出第一張詞雲圖,而且這還將是你的第一個有用的編程作品。

1、請確保你的python環境沒有問題,用的開發工具是VsCode,首先你要在Python擴展中安裝python開發環境(當然,這不是為你的windows安裝python)。

2、那麼你還需要安裝所需要的第三方庫,那麼在VSCode中並沒有PyCharm那麼專業,這里需要獲得你自己的Python腳本位置。

3、我們可以發現裡面有一個名為pip.exe文件,這個文件就是python官方給我們去安裝python第三方庫的一個程序,那麼我們可以在VsCode的終端中就可以去通過它,這也是我們為什麼要獲取python安裝位置的根本原因。

4、python做詞雲呢,需要導入的包有wordcloud和PIL,其中PIL(Python Image Library)是python平台圖像處理標准庫,功能是真的強大。首先需要讀取文件 。

5、如果python引入無誤,並代碼無誤,那麼會彈出你生成的圖片,該圖片會儲存在你的系統。

閱讀全文

與python製作詞雲設置字體相關的資料

熱點內容
銀行人員如何解壓 瀏覽:829
newfile命令快捷鍵 瀏覽:567
阿里雲物理伺服器 瀏覽:953
靈狐視頻app哪個好 瀏覽:257
大廠退役程序員自述 瀏覽:252
linux命令watch 瀏覽:889
加密幣哪些平台不撤出中國 瀏覽:553
max加線命令 瀏覽:424
app胖瘦模式哪個好用 瀏覽:724
可以下載源碼的軟體 瀏覽:487
程序員寫一天代碼累嗎 瀏覽:628
ie文件夾禁止訪問 瀏覽:545
百川互聯網程序員 瀏覽:785
linuxpython解釋器 瀏覽:669
興安得力軟體加密狗 瀏覽:494
智能網路攝像頭加密 瀏覽:576
軟體畢業程序員培訓 瀏覽:654
安卓陀螺儀低怎麼辦 瀏覽:248
一級建造師復習題集pdf 瀏覽:905
法理學pdf海默 瀏覽:394