比较两个文档相似度python_python中是否有用于计算两个字符串相似度的函数

1. python中是否有用于计算两个字符串相似度的函数

linux环境下，没有首先安装python_Levenshtein，用法如下：

重点介绍几个该包中的几个计算字串相似度的几个函数实现。

1. Levenshtein.hamming(str1, str2)

计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。如

2. Levenshtein.distance(str1, str2)

计算编辑距离（也成Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。如

算法实现参考动态规划整理：http://www.cnblogs.com/kaituorensheng/archive/2013/05/15/3080990.html。

3. Levenshtein.ratio(str1, str2)

计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离

注意：这里的类编辑距离不是2中所说的编辑距离，2中三种操作中每个操作+1，而在此处，删除、插入依然+1，但是替换+2

这样设计的目的：ratio('a', 'c')，sum=2,按2中计算为（2-1）/2 = 0.5,’a','c'没有重合，显然不合算，但是替换操作+2，就可以解决这个问题。

4. Levenshtein.jaro(s1, s2)

计算jaro距离，

其中的m为s1, s2的匹配长度，当某位置的认为匹配当该位置字符相同，或者在不超过

t是调换次数的一半

5. Levenshtein.jaro_winkler(s1, s2)

计算Jaro–Winkler距离

2. python中怎么提取两个文本文档相同的内容

建议两个文件的末尾都留一个空行，否则最后一行可能匹配不到

fa=open('A.txt')
a=fa.readlines()
fa.close()
fb=open('B.txt')
b=fb.readlines()
fb.close()
c=[iforiinaifiinb]
fc=open('C.txt','w')
fc.writelines(c)
fc.close()

3. 如何计算两个文档的相似度

如何计算两个文档的相似度
winmerge用这个
操作步骤为：
FC——文件比较命令
1．功能：比较文件的异同，并列出差异处。
2．类型：外部命令
3．格式：FC[盘符：][路径名]〈文件名〉[盘符：][路径名][文件名][/A][/B][/C][/N]
4．使用说明：
（1）选用/A参数，为ASCII码比较模式；
（2）选用/B参数，为二进制比较模式；
（3）选用/C参数，将大小写字符看成是相同的字符。
（4）选用/N参数，在ASCII码比较方式下，显示相异处的行号。

4. python计算文章相似度有什么比较好的实践

基于用户相似度的推荐中，一般采用Pearson相关系数；
基于物品相似度的推荐中，改进的余弦相似度效果更好。

5. 怎样用python或者是java计算文本相似度

第一步：把每个网页文本分词，成为词包（bag of words）。
第三步：统计网页（文档）总数M。
第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）
第四步：重复第三步，计算出一个网页所有词的tf-idf 值。
第五步：重复第四步，计算出所有网页每个词的tf-idf 值。
3、处理用户查询
第一步：对用户查询进行分词。
第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。
4、相似度的计算
使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

6. python有没有什么包能判断文本相似度

有，gensim包。

主要分成三步：
第一步，计算所有评论的tf-idf 值。

第二步，使用所有评论的tf-idf 值算出商品描述的tf-idf 值。
第三步，计算每一个评论和商品描述之间的tf-idf 余弦相似度。

可以在这里找到具体用法：
http://blog.csdn.net/chencheng126/article/details/50070021

7. 如何通过词向量技术来计算2个文档的相似度

可以用 Doc2vec的方法。

Gensim 是一个使用大型语料库来做主题建模，文档索引以及相似度检索 Python 库。

具体请看：

网页链接

8. 在Python里怎么比较两个txt文档并且输出不同部分

我觉得这个问题编程不是最重要的问题，关键是需求和算法。
比如说两个文本，如何区分相同和不同？
如：A.txt：125586aaabbbccc
B.txt：1255aaaddd
这两个文本比较应该输出什么呢？

9. 如何用Python玩转TF-IDF之寻找相似文章并生成摘要

应用1：关键词自动生成

核心思想是对于某个文档中的某个词，计算其在这个文档中的标准化TF值，然后计算这个词在整个语料库中的标准化IDF值。在这里，标准化是说对原始的计算公式进行了一些变换以取得更好的衡量效果，并避免某些极端情况的出现。这个词的TF-IDF值便等于TF*IDF。对于这个文档中的所有词计算它们的TF-IDF值，并按照由高到低的顺序进行排序，由此我们便可以提取我们想要的数量的关键词。

TF-IDF的优点是快捷迅速，结果相对来说比较符合实际情况。缺点是当一篇文档中的两个词的IDF值相同的时候，出现次数少的那个词有可能更为重要。再者，TF-IDF算法无法体现我词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。存在的解决办法是对文章的第一段和每段的第一句话给予比较大的权重。

应用2：计算文本相似度

明白了对于每个词，如何计算它的TF-IDF值。那么计算文本相似度也轻而易举。我们已经计算了文章中每个词的TF-IDF值，那么我们便可以将文章表征为词的TF-IDF数值向量。要计算两个文本的相似度，只需要计算余弦即可，余弦值越大，两个文本便越相似。

应用3：自动摘要

2007年，美国学者的论文<A Survey on Automatic Text Summarization>总结了目前的自动摘要算法，其中很重要的一种就是词频统计。这种方法最早出自1958年IBM公司一位科学家的论文<The Automatic Creation of Literature Abstracts>。这位科学家认为，文章的信息都包含在句子中，有的句子包含的信息多，有的句子包含的信息少。自动摘要就是找出那些包含信息最多的句子。那么句子的信息量怎么衡量呢？论文中采用了关键词来衡量。如果包含的关键词越多，就说明这个句子越重要，这位科学家提出用Cluster的来表示关键词的聚集。所谓簇，就是包含多个关键词的句子片段。

以第一个图为例，其中的cluster一共有7个词，其中4个是关键词。因此它的重要性分值就等于(4*4)/7=2.3。然后，找出包含cluster重要性分值最高的句子（比如5句），把它们合在一起，就构成了这篇文章的自动摘要。具体实现可以参见<Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites>（O'Reilly, 2011）一书的第8章，Python代码见github。这种算法后来被简化，不再区分cluster，只考虑句子包含的关键词。伪代码如下。

Summarizer(originalText,maxSummarySize):
//计算文本的词频，生成一个列表，比如[(10,'the'),(3,'language'),(8,'code')...]
wordFrequences=getWordCounts(originalText)
//过滤掉停用词，列表变成[(3,'language'),(8,'code')...]
contentWordFrequences=filtStopWords(wordFrequences)
//按照词频的大小进行排序，形成的列表为['code','language'...]
contentWordsSortbyFreq=sortByFreqThenDropFreq(contentWordFrequences)
//将文章分成句子
sentences=getSentences(originalText)
//选择关键词首先出现的句子
setSummarySentences={}
:
firstMatchingSentence=search(sentences,word)
setSummarySentences.add(firstMatchingSentence)
ifsetSummarySentences.size()=maxSummarySize:
break
//将选中的句子按照出现顺序，组成摘要
summary=""
foreachsentenceinsentences:
:
summary=summary+""+sentence
returnsummary

类似的算法已经被写成了工具，比如基于Java的Classifier4J库的SimpleSummariser模块、基于C语言的OTS库、以及基于classifier4J的C#实现和python实现。

10. python 计算文本之间的相似性

把文件读出来，不就是文本了吗，就可以用上你说的比较两个文本的代码了

导航:首页 > 编程语言 > 比较两个文档相似度python

比较两个文档相似度python

与比较两个文档相似度python相关的资料