‘壹’ 如何生成关键词云图
可以利用一个在线的制作工具,地址是 http://www.tagxedo.com/app.html.打开这个网站以后,如果你的浏览器没有 Sliverlight 它会提示你安装,那么就安装一下.默认就可以看到一个词云图,Tagxedo 就是做这个的.Color,Theme 都是可以选择和调整的.但是最重要的是 Shape 形状,你可以选择里面自带的字体,地图,苹果或者飞机等等,也可以点击下方的 Add Image 把自己需要的图片放上去编辑.默认的效果就已经出来了,但是里面的文字哪里来?点击 Load 里面有两个选择,一个是输入一个链接,它会自动加载该地址中的网页然后自动做分类统计;第二个是可以自己输入拷贝一段文字,它根据输入的文字做分类统计.最后点击不需要的关键字就可以了.
‘贰’ python 画好看的云词图
词云图是数据分析中比较常见的一种可视化手段。词云图,也叫文字云,是对文本中出现频率较高的 关键词 予以视觉化的展现,出现越多的词,在词云图中展示越显眼。词云图过滤掉大量低频低质的文本信息,因此只要一眼扫过文本就可 领略文章主旨 。
例如👆上面这张图,看一眼就知道肯定是新华网的新闻。
那生成一张词云图的主要步骤有哪些?这里使用 Python 来实现,主要分三步:
首先是“结巴”中文分词 jieba 的安装。
对于英文文本,word_cloud 可以直接对文本源生成词云图。但是对中文的支持没有那么给力,所以需要先使用 jieba 对中文文本进行分词,把文章变成词语,然后再生成词云图。例如:
jieba.cut 分词:方法接受三个输入参数,sentence 需要分词的字符串;cut_all 用来控制是否采用全模式;HMM 用来控制是否使用 HMM 模型。
jieba.cut_for_search 分词:方法接受两个参数,sentence 需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。
jieba.analyse.textrank 使用 TextRank 算法从句子中提取关键词。
然后安装 wordcloud 词云图库。
如果执行上面命令后,显示 success,那么恭喜你,安装成功了。
我就遇到了 Failed building wheel for wordcloud 的错误。于是先安装 xcode-select, 再安装 wordcloud 即可(无需安装 Xcode)。
wordcloud 库把词云当作一个 WordCloud 对象,wordcloud.WordCloud() 代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云,绘制词云的形状、尺寸和颜色。
1、首先导入文本数据并进行简单的文本处理
2、分词
3、设置遮罩
注意:
1、默认字体不支持中文,如果需要显示中文,需要设置中文字体,否则会乱码。
2、设置遮罩时,会自动将图片非白色部分填充,且图片越清晰,运行速度越快
其中 WordCloud 是云词图最重要的对象,其主要参数描述如下:
效果如下图:
上小结是将文章中所有内容进行分词,输出了所有词,但很多时候,我们有进一步的需求。例如:
1、只需要前 100 个关键词就够了。
2、不需要五颜六色的词语,应与遮罩图片颜色一致。
100个关键词,我们在分词时使用 TextRank 算法从句子中提取关键词。
遮罩颜色可通过设置 WordCloud 的 color_func 属性。
最终效果如下:
‘叁’ 用python画一个国庆词云图
使用wordcloud模块。
‘肆’ 在自然语言文本处理的Python库中,什么根据其在文本中的出现频率设计大小,不同
在自然语言文本处理的Python库中,通常使用词云库WordCloud来根据词语在文本中的出现频率设计大小。
WordCloud是一个用于生成词云图的Python库,可以将文本中的词语转换为词云图。词云图中,每个词语的大小与其在文本中的出现频率成正比,出现频率越高的空做缓词语会显示得更大,从而更加醒目。
生成词云图的基本流程是,首先将文本分词,并统计每个词语在文本中的出现频率,然后使用WordCloud库生成词云图。在生成词云图时,可以设置词云图的大小、颜色、字体、形状等参数,斗模从而生成不同风格的词云图。
词云图在文本可视化、文本分析等方面有广泛的应用,可以用来展示文本中的胡慧重要词语或主题,帮助人们更直观地理解文本内容。