导航:首页 > 编程语言 > ik分词java

ik分词java

发布时间:2023-08-09 03:18:53

① ikanalyzer 可以做词性标注吗

java中文分词算法

这两天正好在玩lucene,没用庖丁分词,主要是嫌它要配置环境,麻烦
下面是demo,记得要加lucene-core-2.3.2.jar和lucene-Analyzer.jar以及IKAnalyzer.jar这几个包,有问题call我

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;

public class TestJeAnalyzer {
private static String testString1 = "冗长的代码常常是复杂性的标志,会导致代码难以测试和维护.";
public static void testStandard(String testString) throws Exception{
Analyzer analyzer = new StandardAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====standard analyzer====");
System.err.println("分析方法:默认没有词只有字");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testCJK(String testString) throws Exception{
Analyzer analyzer = new CJKAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====cjk analyzer====");
System.err.println("分析方法:交叉双字分割");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
}
public static void testChiniese(String testString) throws Exception{
Analyzer analyzer = new ChineseAnalyzer();
Reader r = new StringReader(testString);
TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
System.err.println("=====chinese analyzer====");
System.err.println("分析方法:基本等同StandardAnalyzer");
Token t;
while ((t = tf.next()) != null) {
System.out.println(t.termText());
}
}

public static void testJe(String testString) throws Exception{
// Analyzer analyzer = new MIK_CAnalyzer();
Analyzer analyzer = new IK_CAnalyzer();
Reader r = new StringReader(testString);
TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
System.err.println("=====je analyzer====");
System.err.println("分析方法:字典分词,正反双向搜索,具体不明");
Token t;
while ((t = ts.next()) != null) {
System.out.println(t.termText());
}
}
public static void main(String[] args) throws Exception{
// String testString = testString1;
String testString = testString1;
System.out.println(testString);

testStandard(testString);
testCJK(testString);
// testPaoding(testString);

testChiniese(testString);
testJe(testString);
}

}

③ 谁来推荐一个JAVA的分词工具

java读取中文分词工具:linger
Java开源中文分词器
1、word分词器
2、Ansj分词器
3、Stanford分词器
4、FudanNLP分词器
5、Jieba分词器
6、Jcseg分词器
7、MMSeg4j分词器
8、IKAnalyzer分词器
9、Paoding分词器
10、smartcn分词器

阅读全文

与ik分词java相关的资料

热点内容
辞海分册pdf 浏览:933
安卓系统页面怎么调 浏览:773
压缩文件的用法 浏览:32
如何用浏览器访问服务器地址 浏览:205
soft编译器 浏览:113
三轴车床的编程指令 浏览:71
天生敏感pdf 浏览:565
西瓜星球服务器怎么刷钻石 浏览:838
php生成chm 浏览:658
解释程序和编译程序产生目标吗 浏览:609
dos命令rem 浏览:371
plc程序员水平高低 浏览:854
linux服务器linux云 浏览:373
大脚重置命令 浏览:130
app怎么引导页面 浏览:946
pdf转换成w0rd 浏览:569
压缩空气属于什么能量类型 浏览:881
上海交警app怎么付费 浏览:601
暗黑2怎么切换服务器 浏览:20
安卓如何玩港服游戏 浏览:350