短文本关键词提取算法_“关键词”提取都有哪些方案

① “关键词”提取都有哪些方案

仅从词语角度分析，1.2句banana是重复出现的，3.4句kitten是重复出现的。但其实可以发现1.2句主要跟食物有关，3.4句主要跟动物有关，而food、animal两个词在四句话里均未出现，有没有可能判断出四句话中所包含的两个主题呢，或者当两篇文章共有的高频词很少，如一篇讲banana，一篇讲orange，是否可以判断两篇文章都包含food这个主题呢，如何生成主题、如何分析文章的主题，这就是topic-model所研究的内容。对文本进行LSA（隐形语义分析）。在直接对词频进行分析的研究中，可以认为通过词语来描述文章，即一层的传递关系。而topic-model则认为文章是由主题组成，文章中的词，是以一定概率从主题中选取的。不同的主题下，词语出现的概率分布是不同的。比如”鱼雷“一词，在”军事“主题下出现的概率远大于在”食品”主题下出现的概率。即topic-model认为文档和词语之间还有一层关系。首先假设每篇文章只有一个主题z，则对于文章中的词w，是根据在z主题下的概率分布p(w|z)生成的。则在已经选定主题的前提下，整篇文档产生的概率是而这种对每篇文章只有一个主题的假设显然是不合理的，事实上每篇文章可能有多个主题，即主题的选择也是服从某概率分布p(t)的因此根据LDA模型，所有变量的联合分布为表示topic下词的分布，表示文档下topic的分布。是第m个文档的单词总数。和表示词语和topic的概率分布先验参数。而学习LDA的过程，就是通过观察到的文档集合，学习的过程。

② 关键词怎么提取

在巨量的信息面前，很多信息是我们无法全面接收，因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述，那么我们便可以通过关键词了解一篇文章的内容，这将会提高信息获取到效率。想要在海量的信息里提取出我们所需要的信息，就需要学会如何提取关键词。

二，在上述的TF-IDF算法中，都需要基于一个现成的语料库，主题模型的关键词提取算法则是需要通过对大规模文档学习，发现文档的隐含主题。
三，而TextRank算法则是可以脱离语料库的基础，仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。因此这里需要先了解下PageRank算法。

③ TFIDF算法实现关键词抽取

其实这是一个很简单的算法。
先来学习一下概念：

在实际的使用过程中，实际上先使用历史存量数据计算出每个词的IDF值，作为一个原始信息，在对新内容进行处理时，只需要计算出TF值就可以了，然后对这篇内容的所有词计算出TFIDF值，然后进行排序就ok了。

TFIDF是一种十分简单的关键词提取方案，在实际的应用中，还可以进行多种算法的融合，之后我再慢慢介绍。

当然了，该算法还有一些变种，基本上基于下面几种方法，有兴趣的可以了解一下。

④ jieba分词详解

“结巴”分词是一个Python 中文分词组件，参见 https://github.com/fxsjy/jieba
可以对中文文本进行 分词、词性标注、关键词抽取 等功能，并且支持自定义词典。

本文包括以下内容：
1、jieba分词包的安装
2、jieba分词的 使用教程
3、jieba分词的 工作原理与工作流程
4、jieba分词所涉及到的 HMM、TextRank、TF-IDF等算法介绍

可以直接使用pip来进行安装：
sudo pip install jieba
或者
sudo pip3 install jieba

关键词抽取有两种算法，基于TF-IDF和基于TextRank：

jieba分词有三种不同的分词模式： 精确模式、全模式和搜索引擎模式 ：

对应的，函数前加l即是对应得到list结果的函数：

精确模式是最常用的分词方法，全模式会将句子中所有可能的词都列举出来，搜索引擎模式则适用于搜索引擎使用。具体的差别可在下一节工作流程的分析中详述。

在上述每个函数中，都有名为HMM的参数。这一项表示是否在分词过程中利用HMM进行新词发现。关于HMM，本文附录中将简述相关知识。

另外分词支持自定义字典，词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。
具体使用方法为：

关键词抽取的两个函数的完整参数为：

可以通过

来打开或关闭并行分词功能。
个人感觉一般用不到，大文件分词需要手动实现多进程并行，句子分词也不至于用这个。

jieba分词主要通过词典来进行分词及词性标注，两者使用了一个相同的词典。正因如此，分词的结果优劣将很大程度上取决于词典，虽然使用了HMM来进行新词发现。
jieba分词包整体的工作流程如下图所示：

下面将根据源码详细地分析各个模块的工作流程。

在之后几节中，我们在 蓝色的方框 中示范了关键步骤的输出样例或词典文件的格式样例。在本节中都采用类似的表示方式。

jieba分词中，首先通过对照典生成句子的 有向无环图 ，再根据选择的模式不同，根据词典 寻找最短路径 后对句子进行截取或直接对句子进行截取。对于未登陆词（不在词典中的词）使用 HMM 进行新词发现。

词典的格式应为
word1 freq1 word_type1
word2 freq2 word_type2
…
其中自定义用户词典中词性word_type可以省略。
词典在其他模块的流程中可能也会用到，为方便叙述，后续的流程图中将会省略词典的初始化部分。

图b演示了搜索引擎模式的工作流程，它会在精确模式分词的基础上，将长词再次进行切分。

在这里我们假定读者已经了解HMM相关知识，如果没有可先行阅读下一章内容中的HMM相关部分或者跳过本节。

在jieba分词中，将字在词中的位置B、M、E、S作为隐藏状态，字是观测状态，使用了词典文件分别存储字之间的表现概率矩阵（finalseg/prob_emit.py）、初始概率向量(finalseg/prob_start.py)和转移概率矩阵(finalseg/prob_trans.py)。这就是一个标准的 解码问题 ，根据概率再利用 viterbi算法 对最大可能的隐藏状态进行求解。

词性分析部分与分词模块用了同一个基础的分词器，对于词典词的词性，将直接从词典中提取，但是对于新词，词性分析部分有一个 专属的新词及其词性的发现模块 。
用于词性标注的HMM模型与用于分词的HMM模型相似，同样将文字序列视为可见状态，但是隐藏状态不再是单单的词的位置（B/E/M/S），而变成了词的位置与词性的组合，如(B,v)(B,n)(S,n)等等。因此其初始概率向量、转移概率矩阵和表现概率矩阵和上一节中所用的相比都要庞大的多，但是其本质以及运算步骤都没有变化。
具体的工作流程如下图所示。

jieba分词中有两种不同的用于关键词抽取的算法，分别为TextRank和TF-IDF。实现流程比较简单，其核心在于算法本身。下面简单地画出实现流程，具体的算法可以参阅下一章内容。

TextRank方法默认筛选词性，而TF-IDF方法模型不进行词性筛选。

在本章中，将会简单介绍相关的算法知识，主要包括用于新词发现的 隐马尔科夫模型 和 维特比算法 、用于关键词提取的 TextRank 和 TF-IDF 算法。

HMM即隐马尔科夫模型，是一种基于马尔科夫假设的统计模型。之所以为“隐”，是因为相较于马尔科夫过程HMM有着未知的参数。在世界上，能看到的往往都是表象，而事物的真正状态往往都隐含在表象之下，并且与表象有一定的关联关系。

其中，S、O分别表示状态序列与观测序列。

如果读者还对这部分内容心存疑问，不妨先往下阅读，下面我们将以一个比较简单的例子对HMM及解码算法进行实际说明与演示，在读完下一小节之后再回来看这些式子，或许能够恍然大悟。

下面以一个简单的例子来进行阐述：
假设小明有一个网友小红，小红每天都会在朋友圈说明自己今天做了什么，并且假设其仅受当天天气的影响，而当天的天气也只受前一天天气的影响。
于小明而言，小红每天做了什么是可见状态，而小红那里的天气如何就是隐藏状态，这就构成了一个HMM模型。一个HMM模型需要有五个要素：隐藏状态集、观测集、转移概率、观测概率和初始状态概率。

即在第j个隐藏状态时，表现为i表现状态的概率。式中的n和m表示隐藏状态集和观测集中的数量。
本例中在不同的天气下，小红要做不同事情的概率也不同， 观测概率 以表格的形式呈现如下：

其中

除此之外，还需要一个初始状态概率向量π，它表示了观测开始时，即t=0时，隐藏状态的概率值。本例中我们指定 π={0,0,1} 。

至此，一个完整的 隐马尔科夫模型 已经定义完毕了。

HMM一般由三类问题：
概率计算问题 ，即给定 A,B,π 和隐藏状态序列，计算观测序列的概率；
预测问题 ，也成解码问题，已知 A,B,π 和观测序列，求最优可能对应的状态序列；
学习问题 ，已知观测序列，估计模型的 A,B,π 参数，使得在该模型下观测序列的概率最大，即用极大似然估计的方法估计参数。

在jieba分词中所用的是解码问题，所以此处对预测问题和学习问题不做深入探讨，在下一小节中我们将继续以本节中的例子为例，对解码问题进行求解。

在jieba分词中，采用了HMM进行新词发现，它将每一个字表示为B/M/E/S分别代表出现在词头、词中、词尾以及单字成词。将B/M/E/S作为HMM的隐藏状态，而连续的各个单字作为观测状态，其任务即为利用观测状态预测隐藏状态，并且其模型的 A,B,π 概率已经给出在文件中，所以这是一个标准的解码问题。在jieba分词中采用了 Viterbi算法 来进行求解。

Viterbi算法的基本思想是：如果最佳路径经过一个点，那么起始点到这个点的路径一定是最短路径，否则用起始点到这点更短的一条路径代替这段，就会得到更短的路径，这显然是矛盾的；从起始点到结束点的路径，必然要经过第n个时刻，假如第n个时刻有k个状态，那么最终路径一定经过起始点到时刻n中k个状态里最短路径的点。
将时刻t隐藏状态为i所有可能的状态转移路径i1到i2的状态最大值记为

下面我们继续以上一节中的例子来对viterbi算法进行阐述：
小明不知道小红是哪里人，他只能通过小红每天的活动来推断那里的天气。
假设连续三天，小红的活动依次为：“睡觉-打游戏-逛街”，我们将据此计算最有可能的天气情况。

表示第一天为雨天能够使得第二天为晴天的概率最大（也就是说如果第二天是晴天在最短路径上的话，第一天是雨天也一定在最短路径上，参见上文中Viterbi算法的基本思想）

此时已经到了最后的时刻，我们开始回溯。

其计算过程示意图如下图所示。

）的路径。

TF-IDF（词频-逆文本频率）是一种用以评估字词在文档中重要程度的统计方法。它的核心思想是，如果某个词在一篇文章中出现的频率即TF高，并且在其他文档中出现的很少，则认为这个词有很好的类别区分能力。

其中：

TextRank是一种用以关键词提取的算法，因为是基于PageRank的，所以先介绍PageRank。
PageRank通过互联网中的超链接关系确定一个网页的排名，其公式是通过一种投票的思想来设计的：如果我们计算网页A的PageRank值，那么我们需要知道哪些网页链接到A，即首先得到A的入链，然后通过入链给网页A进行投票来计算A的PR值。其公式为：

其中：

d为阻尼系数，取值范围为0-1，代表从一定点指向其他任意点的概率，一般取值0.85。
将上式多次迭代即可直到收敛即可得到结果。

TextRank算法基于PageRank的思想，利用投票机制对文本中重要成分进行排序。如果两个词在一个固定大小的窗口内共同出现过，则认为两个词之间存在连线。

公式与PageRank的基本相同。多次迭代直至收敛，即可得到结果。
在jieba分词中，TextRank设定的词窗口大小为5，将公式1迭代10次的结果作为最终权重的结果，而不一定迭代至收敛。

⑤ php 要从文章内容，提取关键词，要怎么写！

提取关键词，你必须得有个词库。然后根据词库匹配文章内容。词库越多效率越低，文章内容长度越长效率越低。
网上针对php有相干的分词算法，你可以搜
”SCWS
中文分词“
来看一下。你可以根据里面的例子来做扩展

⑥ 大数据算法：分类算法

KNN算法，即K近邻（K Nearest Neighbour）算法，是一种基本的分类算法。其主要原理是：对于一个需要分类的数据，将其和一组已经分类标注好的样本集合进行比较，得到距离最近的K个样本，K个样本最多归属的类别，就是这个需要分类数据的类别。下面我给你画了一个KNN算法的原理图。

图中，红蓝绿三种颜色的点为样本数据，分属三种类别、、。对于待分类点，计算和它距离最近的5个点（即K为5），这5个点最多归属的类别为（4个点归属，1个点归属），那么的类别被分类为。

KNN的算法流程也非常简单，请看下面的流程图。

KNN算法是一种非常简单实用的分类算法，可用于各种分类的场景，比如新闻分类、商品分类等，甚至可用于简单的文字识别。对于新闻分类，可以提前对若干新闻进行人工标注，标好新闻类别，计算好特征向量。对于一篇未分类的新闻，计算其特征向量后，跟所有已标注新闻进行距离计算，然后进一步利用KNN算法进行自动分类。

读到这你肯定会问，如何计算数据的距离呢？如何获得新闻的特征向量呢？

KNN算法的关键是要比较需要分类的数据与样本数据之间的距离，这在机器学习中通常的做法是：提取数据的特征值，根据特征值组成一个n维实数向量空间（这个空间也被称作特征空间），然后计算向量之间的空间距离。空间之间的距离计算方法有很多种，常用的有欧氏距离、余弦距离等。

对于数据和，若其特征空间为n维实数向量空间，即，，则其欧氏距离计算公式为

这个欧式距离公式其实我们在初中的时候就学过，平面几何和立体几何里两个点之间的距离，也是用这个公式计算出来的，只是平面几何（二维几何）里的n=2，立体几何（三维几何）里的n=3，而机器学习需要面对的每个数据都可能有n维的维度，即每个数据有n个特征值。但是不管特征值n是多少，两个数据之间的空间距离的计算公式还是这个欧氏计算公式。大多数机器学习算法都需要计算数据之间的距离，因此掌握数据的距离计算公式是掌握机器学习算法的基础。

欧氏距离是最常用的数据计算公式，但是在文本数据以及用户评价数据的机器学习中，更常用的距离计算方法是余弦相似度。

余弦相似度的值越接近1表示其越相似，越接近0表示其差异越大，使用余弦相似度可以消除数据的某些冗余信息，某些情况下更贴近数据的本质。我举个简单的例子，比如两篇文章的特征值都是：“大数据”“机器学习”和“极客时间”，A文章的特征向量为（3, 3, 3），即这三个词出现次数都是3；B文章的特征向量为（6, 6, 6），即这三个词出现次数都是6。如果光看特征向量，这两个向量差别很大，如果用欧氏距离计算确实也很大，但是这两篇文章其实非常相似，只是篇幅不同而已，它们的余弦相似度为1，表示非常相似。

余弦相似度其实是计算向量的夹角，而欧氏距离公式是计算空间距离。余弦相似度更关注数据的相似性，比如两个用户给两件商品的打分分别是（3, 3）和（4, 4），那么两个用户对两件商品的喜好是相似的，这种情况下，余弦相似度比欧氏距离更合理。

我们知道了机器学习的算法需要计算距离，而计算距离需要还知道数据的特征向量，因此提取数据的特征向量是机器学习工程师们的重要工作，有时候甚至是最重要的工作。不同的数据以及不同的应用场景需要提取不同的特征值，我们以比较常见的文本数据为例，看看如何提取文本特征向量。

文本数据的特征值就是提取文本关键词，TF-IDF算法是比较常用且直观的一种文本关键词提取算法。这种算法是由TF和IDF两部分构成。

TF是词频（Term Frequency），表示某个单词在文档中出现的频率，一个单词在一个文档中出现的越频繁，TF值越高。

词频：

IDF是逆文档频率（Inverse Document Frequency），表示这个单词在所有文档中的稀缺程度，越少文档出现这个词，IDF值越高。

逆文档频率：

TF与IDF的乘积就是TF-IDF。

所以如果一个词在某一个文档中频繁出现，但在所有文档中却很少出现，那么这个词很可能就是这个文档的关键词。比如一篇关于原子能的技术文章，“核裂变”“放射性”“半衰期”等词汇会在这篇文档中频繁出现，即TF很高；但是在所有文档中出现的频率却比较低，即IDF也比较高。因此这几个词的TF-IDF值就会很高，就可能是这篇文档的关键词。如果这是一篇关于中国原子能的文章，也许“中国”这个词也会频繁出现，即TF也很高，但是“中国”也在很多文档中出现，那么IDF就会比较低，最后“中国”这个词的TF-IDF就很低，不会成为这个文档的关键词。

提取出关键词以后，就可以利用关键词的词频构造特征向量，比如上面例子关于原子能的文章，“核裂变”“放射性”“半衰期”这三个词是特征值，分别出现次数为12、9、4。那么这篇文章的特征向量就是（12, 9, 4），再利用前面提到的空间距离计算公式计算与其他文档的距离，结合KNN算法就可以实现文档的自动分类。

贝叶斯公式是一种基于条件概率的分类算法，如果我们已经知道A和B的发生概率，并且知道了B发生情况下A发生的概率，可以用贝叶斯公式计算A发生的情况下B发生的概率。事实上，我们可以根据A的情况，即输入数据，判断B的概率，即B的可能性，进而进行分类。

举个例子：假设一所学校里男生占60%，女生占40%。男生总是穿长裤，女生则一半穿长裤一半穿裙子。假设你走在校园中，迎面走来一个穿长裤的学生，你能够推断出这个穿长裤学生是男生的概率是多少吗？

答案是75%，具体算法是：

这个算法就利用了贝叶斯公式，贝叶斯公式的写法是：

意思是A发生的条件下B发生的概率，等于B发生的条件下A发生的概率，乘以B发生的概率，除以A发生的概率。还是上面这个例子，如果我问你迎面走来穿裙子的学生是女生的概率是多少。同样带入贝叶斯公式，可以计算出是女生的概率为100%。其实这个结果我们根据常识也能推断出来，但是很多时候，常识受各种因素的干扰，会出现偏差。比如有人看到一篇博士生给初中学历老板打工的新闻，就感叹读书无用。事实上，只是少见多怪，样本量太少而已。而大量数据的统计规律则能准确反映事物的分类概率。

贝叶斯分类的一个典型的应用场合是垃圾邮件分类，通过对样本邮件的统计，我们知道每个词在邮件中出现的概率，我们也知道正常邮件概率和垃圾邮件的概率，还可以统计出垃圾邮件中各个词的出现概率，那么现在一封新邮件到来，我们就可以根据邮件中出现的词，计算，即得到这些词出现情况下，邮件为垃圾邮件的概率，进而判断邮件是否为垃圾邮件。

现实中，贝叶斯公式等号右边的概率，我们可以通过对大数据的统计获得，当有新的数据到来的时候，我们就可以带入上面的贝叶斯公式计算其概率。而如果我们设定概率超过某个值就认为其会发生，那么我们就对这个数据进行了分类和预测，具体过程如下图所示。

训练样本就是我们的原始数据，有时候原始数据并不包含我们想要计算的维度数据，比如我们想用贝叶斯公式自动分类垃圾邮件，那么首先要对原始邮件进行标注，需要标注哪些邮件是正常邮件、哪些邮件是垃圾邮件。这一类需要对数据进行标注才能进行的机器学习训练也叫作有监督的机器学习。

⑦ TextRank——关键词提取

TextRank 算法可以脱离语料库的背景，仅对单篇文档进行分析就可以提取该文档的关键词。

TextRank 算法基于 PageRank 算法的。 PageRank 算法是一种网页排名算法，其基本思想有两条：

d 表示阻尼系数，为了解决没有入链网页的得分。 在 0.85 的阻尼系数下，大约 100 多次迭代 PR 值就能收敛到一个稳定的值，而当阻尼系数接近 1 时，需要的迭代次数会陡然增加很多，且排序不稳定。

链接网页的初始分数如何确定： 算法开始时会将所有网页的得分初始化为 1，然后通过多次迭代来对每个网页的分数进行收敛。收敛时的得分就是网页最终得分。若不能收敛，也可以通过设定最大迭代次数来对计算进行控制，计算停止时的分数就是网页的得分。

https://www.zybuluo.com/evilking/note/902585

⑧ 用Py做文本分析5：关键词提取

关键词指的是原始文档的和核心信息，关键词提取在文本聚类、分类、自动摘要等领域中有着重要的作用。

针对一篇语段，在不加人工干预的情况下提取出其关键词

无监督学习——基于词频
思路1：按照词频高低进行提取

思路2：按照词条在文档中的重要性进行提取

IF-IDF是信息检索中最常用的一种文本关键信息表示法，其基本的思想是如果某个词在一篇文档中出现的频率高，并且在语料库中其他文档中很少出现，则认为这个词具有很好的类别区分能力。

TF：Term Frequency，衡量一个term在文档中出现得有多频繁。平均而言出现越频繁的词，其重要性可能就越高。考虑到文章长度的差异，需要对词频做标准化：

IDF：Inverse Document Frequency，逆文档概率，用于模拟在该语料的实际使用环境中，目标term的重要性。

TF-IDF：TF*IDF

优点：

(1)jieba

(2)sklearn

(3)gensim

前面介绍的TF-IDF属于无监督中基于词频的算法，TextRank算法是基于图形的算法。

TextRank算法的思想来源于PageRank算法：

和基于词频的算法相比，TextRank进一步考虑了文档内词条间的语义关系。

参考资料：
Python数据分析--玩转文本挖掘

⑨ 求一个提取文章关键词的java程序

//直接粘贴就行。
import java.awt.BorderLayout;
import java.awt.EventQueue;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.io.File;
import java.io.IOException;
import java.io.PrintWriter;
import java.util.ArrayList;
import java.util.Scanner;

import javax.swing.BorderFactory;
import javax.swing.JButton;
import javax.swing.JFileChooser;
import javax.swing.JFrame;
import javax.swing.JPanel;
import javax.swing.JSplitPane;
import javax.swing.JTextArea;
import javax.swing.border.EtchedBorder;
import javax.swing.filechooser.FileFilter;

public class Application2 extends JFrame implements Cloneable{

public Application2(){
this.setDefaultCloseOperation(EXIT_ON_CLOSE);
this.setSize(800,700);
this.setLayout(new BorderLayout());
keyWords1=new String[]{"那么","还是","sdf"};
keyWords2=new String[]{"所以","而且",};
input=new JTextArea();
JPanel ip=new JPanel();
ip.setLayout(new BorderLayout());
ip.add(input,BorderLayout.CENTER);
ip.setBorder(BorderFactory.createTitledBorder(BorderFactory.createEtchedBorder(EtchedBorder.LOWERED), "输入文本"));
output1=new JTextArea();
JPanel o1p=new JPanel();
o1p.setLayout(new BorderLayout());
o1p.add(output1,BorderLayout.CENTER);
o1p.setBorder(BorderFactory.createTitledBorder(BorderFactory.createEtchedBorder(EtchedBorder.LOWERED), "以下为"));
output2=new JTextArea();
JPanel o2p=new JPanel();
o2p.setLayout(new BorderLayout());
o2p.add(output2,BorderLayout.CENTER);
o2p.setBorder(BorderFactory.createTitledBorder(BorderFactory.createEtchedBorder(EtchedBorder.LOWERED), "以下为"));
JSplitPane split1=new JSplitPane(JSplitPane.HORIZONTAL_SPLIT,o1p,o2p);
split1.setDividerLocation(350);
JSplitPane split2=new JSplitPane(JSplitPane.VERTICAL_SPLIT,ip,split1);
split2.setDividerLocation(300);
this.add(split2,BorderLayout.CENTER);

open=new JButton("导入");
open.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent e){
JFileChooser chooser=new JFileChooser(".");
chooser.setMultiSelectionEnabled(false);
chooser.addChoosableFileFilter(new FileFilter(){
@Override
public boolean accept(File file) {
if(file.isDirectory())
return true;
int length=file.getName().length();
if(length<5)
return false;
if(file.getName().substring(length-4).equals(".txt"))
return true;
return false;
}
@Override
public String getDescription() {
return "文本文件";
}
});
chooser.showOpenDialog(Application2.this);
File file=chooser.getSelectedFile();
if(file==null)
return;
try {
Scanner sc=new Scanner(file);
String text="";
while(sc.hasNextLine())
text+=sc.nextLine()+"\n";
input.setText(text);
String[] array=getSentences();
output1.setText(getKeySentences(keyWords1,array));
output2.setText(getKeySentences(keyWords2,array));
}catch (IOException e1) {
e1.printStackTrace();
}
}
});
save=new JButton("导出");
save.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent e){
JFileChooser chooser=new JFileChooser(".");
chooser.setMultiSelectionEnabled(false);
chooser.addChoosableFileFilter(new FileFilter(){
@Override
public boolean accept(File file) {
if(file.isDirectory())
return true;
int length=file.getName().length();
if(length<5)
return false;
if(file.getName().substring(length-4).equals(".txt"))
return true;
return false;
}
@Override
public String getDescription() {
return "文本文件";
}
});
chooser.showSaveDialog(Application2.this);
File file=chooser.getSelectedFile();
if(file==null)
return;
try {
PrintWriter pw=new PrintWriter(file);
pw.print(output1.getText());
pw.flush();
pw.print(output2.getText());
pw.flush();
}catch (IOException e1) {
e1.printStackTrace();
}
}
});
JPanel buttonPane=new JPanel();
buttonPane.add(open);
buttonPane.add(save);
this.add(buttonPane,BorderLayout.SOUTH);
}

public String[] getSentences(){
ArrayList<String> set=new ArrayList<String>();
int length=input.getText().length();
for(int i=0,last=0;i<length;i++){
String s=String.valueOf(input.getText().charAt(i));
if(s.equals("\n"))
last=i+1;
if(s.equals(".")||s.equals(",")||s.equals("。")||s.equals("。")||s.equals("！")||s.equals("？")||s.equals("?")||s.equals("!")||s.equals("，")){
set.add(input.getText().substring(last,i)+s);
last=i+1;
}
}
return set.<String>toArray(new String[set.size()]);
}

public String getKeySentences(String[] key,String[] sentences){
String result="";
A: for(int i=0;i<sentences.length;i++){
for (int k = 0; k < key.length; k++)
if (sentences[i].contains(key[k].subSequence(0, key[k].length()))) {
result += sentences[i] + "\n";
continue A;
}
}
return result;
}

private JTextArea input;
private JTextArea output1;
private JTextArea output2;
private JButton open;
private JButton save;
private String[] keyWords1;
private String[] keyWords2;

public static void main(String... args){
EventQueue.invokeLater(new Runnable(){
public void run(){
new Application2().setVisible(true);
}
});
}
}

导航:首页 > 源码编译 > 短文本关键词提取算法

短文本关键词提取算法

与短文本关键词提取算法相关的资料