A. 如何用C语言写中文分词程序最大正向匹配/最大逆向匹配/双向匹配和最短路径匹配.
扫描字符串,到词库里找对应的
B. 什么叫正向最大匹配算法,反向最大匹配算法
分词算法里的吧
比如 我是一个好人
由于 词语很多,所以分词中先设定一个可能的,最长的词组的词数
比如说,我认定最长的词组是3个字,那在比对中,会将句子3个字为始进行比对
正向匹配算法好象是从左到右 反向区域算法是从右到左,具体忘记了
以 “我是一个好人” 为例
正向的顺序为
我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个好
一个===> 得到一个词
好人===>得到一个词
结果 我、是、一个、好人
反向算法
个好人
好人==> 好人
是一个
一个==> 一个
我是
是==> 是
我==> 我
结果 我、是、一个、好人
C. c语言中如何用链表实现中文分词(最大匹配法),词库word.txt,需分词文章form.txt,分词后文章to.txt。
麻烦给出具体要求。
*词库的格式具体怎样
*中文的编码具体是什么 ANSI、utf8、GB23010?
给几个简单的输入、输出样例
D. 逆向最大匹配中文分词
这是个分词工具,名字是NLPIR大数据搜索与挖掘共享开发平台,你看看对你有没有帮助。现在的功能已经更新了。
E. matlab用正向最大匹配算法实现中文分词!急!!!
SqlConnection con = new SqlConnection
con.Open();
string sqlstr = "sql语句";
SqlDataAdapter da = new SqlDataAdapter(sqlstr, con);
DataSet ds= new DataSet();
da.Fill(ds);
dataGridView1.DataSource = ds.Tables[0];
con.Close();
F. C语言如何利用最大匹配法编写中文分词的源程序
这个代码实现很简单的,就是把词典加载到map中,对一句话进行分词时,取词典中最长的词作为maxlen长度,由长到短进行匹配,然后查词典,如果词典中有就切分。
G. 哪个高手有中文分词逆向最大匹配算法
逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
例子:’我一个人吃饭’
反向最大匹配方式,最大长度为5
H. 谁能介绍下最新的中文分词方法
理解法
统计法
I. 中文分词中正向最大匹配算法的分词速度是多少准确率大概为多少
主要看你的词表结构了,最大词长的初始值,查词典的次数和匹配的次数,然后得出时间复杂度,原始hash算法复杂度没记错的话应该是2.89,11年看过一个文献,提出一种改进的算法时间复杂度是2.291……
另外,分词算法并不是原封不动的,比如有些搜索引擎的词表结构就采用tire树结构,这样不用设置最大词长,不过内存空间方面就要有取舍,甚至还有采用减少查典次数增加匹配次数的搜索引擎……
所以单纯的给你一个189.3m/M纯内存分词速度,但是这算法换个台更高配置的服务器却变成了497.6ms/M,这没有任何意义……
记得哪个文献上有人说,分词本身不是目的,而是后续处理过程的必要阶段,所以,除非你是研究算法的,否则单纯追求这东西的速度和准确率没什么太大意义
J. 为什么中文分词的几大主流分词技术,没有用逆向最大匹配或者双向最大匹配分词算法的呢
速度是关键,逆向最大匹配需要专门创建逆向匹配索引。操作维护比较麻烦