1. 百度的中文分词算法
这是seo里面非常重要的知识,竞价人员必须掌握的。关于资料这方面的资料有很多,学习起来最重要的是灵活,活用活用,融会贯通,举一反三。
2. java中文分词算法
这两天正好在玩lucene,没用庖丁分词,主要是嫌它要配置环境,麻烦
下面是demo,记得要加lucene-core-2.3.2.jar和lucene-Analyzer.jar以及IKAnalyzer.jar这几个包,有问题call我
import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;
public class TestJeAnalyzer {
private static String testString1 = "冗长的代码常常是复杂性的标志,会导致代码难以测试和维护.";
public static void testStandard(String testString) throws Exception{
Analyzer analyzer = new StandardAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====standard analyzer====");
System.err.println("分析方法:默认没有词只有字");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testCJK(String testString) throws Exception{
Analyzer analyzer = new CJKAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====cjk analyzer====");
System.err.println("分析方法:交叉双字分割");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testChiniese(String testString) throws Exception{
Analyzer analyzer = new ChineseAnalyzer();
Reader r = new StringReader(testString);
TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
System.err.println("=====chinese analyzer====");
System.err.println("分析方法:基本等同StandardAnalyzer");
Token t;
while ((t = tf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testJe(String testString) throws Exception{
// Analyzer analyzer = new MIK_CAnalyzer();
Analyzer analyzer = new IK_CAnalyzer();
Reader r = new StringReader(testString);
TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
System.err.println("=====je analyzer====");
System.err.println("分析方法:字典分词,正反双向搜索,具体不明");
Token t;
while ((t = ts.next()) != null) {
System.out.println(t.termText());
}
}
public static void main(String[] args) throws Exception{
// String testString = testString1;
String testString = testString1;
System.out.println(testString);
testStandard(testString);
testCJK(testString);
// testPaoding(testString);
testChiniese(testString);
testJe(testString);
}
}
3. n-gram中文分词算法怎么算
主要看你的词表结构了,最大词长的初始值,查词典的次数和匹配的次数,然后得出时间复杂度,原始hash算法复杂度没记错的话应该是2.89,11年看过一个文献,提出一种改进的算法时间复杂度是2.291…… 另外,分词算法并不是原封不动的,比如有些搜索。
4. 分词算法的分类实现
1:
public class T1{
private int i;
public void func(){
for ( i = 10; i<50; i++ ){
if( i%3 == 0 ){
System.out.print( i + " " );
}
}
System.out.println();
}
public static void main( String args[] ){
T1 t1 = new T1();
t1.func();
}
}
2.
public class T2{
private int i = 10;
public void func(){
while ( i<50){
if( i%3 == 0 ){
System.out.print( i + " " );
}
i++;
}
System.out.println();
}
public static void main( String args[] ){
T2 t2 = new T2();
t2.func();
}
}
3.
public class T3{
private int i = 10;
public void func(){
do{
if( i%3 == 0 ){
System.out.print( i + " " );
}
i++;
}
while( i < 50 );
System.out.println();
}
public static void main( String args[] ){
T3 t3 = new T3();
t3.func();
}
}
5. 汉语分词算法如何实现
常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等。
最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。
双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分。
最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。
6. 关于中科院分词算法的问题
AB
7. 关键词的分词算法是一个算法么还是具体需要指出运用那种算法呢
分词算法是个大类,有许多具体算法的.
8. 分词算法事什么
分词算法是文本挖掘的基础,通常对整个模型的效果起着较大的决定作用。
分词算法常用的两种运行方式:
1、用户搜索及匹配。
例如:我们在网络搜索一个词 “手机回收”,那么网络会先把这个词分为手机和回收两个词这个时候呢网络会先在库中搜索手机这个词然后进行第一轮的筛选。把网页当中没有手机这个词的去除,只保留带有手机这个词的结果,之后再从已筛选出来的网页中,筛选出带有回收这个词的页面。然后在所得结果里面根据页面评分给用户进行排序。
2、网页主题计算。
前面启蒙博客也讲过,网络蜘蛛只是一个机器,并不能向人一样去思考,而在处理文章的时候,网络蜘蛛则会把文章也进行分词去处理,如过文章里 手机 这个词出现频率比较多,也就是所说的关键词密度,那么这个页面也就会定性为手机方面的文章。
9. 中文分词中正向最大匹配算法的分词速度是多少准确率大概为多少
主要看你的词表结构了,最大词长的初始值,查词典的次数和匹配的次数,然后得出时间复杂度,原始hash算法复杂度没记错的话应该是2.89,11年看过一个文献,提出一种改进的算法时间复杂度是2.291……
另外,分词算法并不是原封不动的,比如有些搜索引擎的词表结构就采用tire树结构,这样不用设置最大词长,不过内存空间方面就要有取舍,甚至还有采用减少查典次数增加匹配次数的搜索引擎……
所以单纯的给你一个189.3m/M纯内存分词速度,但是这算法换个台更高配置的服务器却变成了497.6ms/M,这没有任何意义……
记得哪个文献上有人说,分词本身不是目的,而是后续处理过程的必要阶段,所以,除非你是研究算法的,否则单纯追求这东西的速度和准确率没什么太大意义
10. 请教基于统计的分词算法和程序
分词算法我写过,可以把中文文章里面的词语都智能分离出来,但恐怕你所说的找固定词组是指查找词组么?那应该是查找算法,并不属于分词的范畴,难度低很多很多,只是查找字符串而已。我对积分没兴趣的,只对钱有兴趣,愿意消费的才联系,看ID