导航:首页 > 源码编译 > 演化算法在中文自动分词的应用

演化算法在中文自动分词的应用

发布时间:2023-03-08 06:01:54

Ⅰ Python中文分词的原理你知道吗

中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。

中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类:

基于规则的分词方法

基于统计的分词方法

基于语义的分词方法

基于理解的分词方法

下面我们对这几种方法分别进行总结。

基于规则的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为 i,则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段,查找分词词典,若词典中有这样一个 i 字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个 i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率 为 1/169。

逆向最大匹配法(RMM)。该方法的分词过程与 MM 法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为 1/245。

逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。

设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包 括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。

最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时 间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。

此种方法优点是简单,易于实现。但缺点有很多:匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同;缺乏自学习的智能性。

基于统计的分词方法

该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程 度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

该方法所应用的主要的统计模型有:N 元文法模型(N-gram)、隐马尔可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等。

在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于语义的分词方法

语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

扩充转移网络法

该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络 (RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在 运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。

矩阵约束法

其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。

基于理解的分词方法

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。

专家系统分词法

从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。

神经网络分词法

该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果,如使用 LSTM、GRU 等神经网络模型等。

神经网络专家系统集成式分词法

该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。

以上便是对分词算法的基本介绍。

Ⅱ 什么是演化算法

演化算法是解决组合优化问题的高效搜索算法.该文在现有求解TSP问题的演化算法的基础上,通过引入映射算子、优化算子以及增加一些控制策略,提出了一种高效的演化搜索算法.实验表明,该算法是有效的,通过对CHN144以及国际通用的TSPLIB中不同城市规模的数据进行测试表明,其中实例CHN144得到的最短路径为30353.860997,优于吴斌等运用分段算法得到的最短路径30354.3,亦优于朱文兴等人的结果,实例st70和kroB150得到的最短路径分别与运用分段算法得到的最短路径值相同,实例pr136得到的最短路径值为96770.924122,优于TSPLIB中提供的最短路径96772,对于其它实例也均能快速地得到和TSPLIB中提供的最优路径相同或更优的路径,该算法不仅很容易收敛到问题的最优解,而且求解速度极快.

Ⅲ 百度算法中怎么进行中文切词分词

导读:网络作为中文搜索引擎的先驱,它的核心地位可以说在短时期是没有任何搜索引擎可以超越的,网络的卓越成就在于它对博大精深的中国文化的领悟和对中文分词的的超强功底。网络受欢迎的主要原因除了用户习惯的原因,在较大程度上得益于网络算法的精准率,搜索结果值更贴近用户的想获得的资讯。用一句广告词 “正是我想要的”来形容网络最恰当不过了。

正因为网络对中国搜索引擎市场的统治地位,企业想在网上赚取大量的钞票,就不得不依靠网络。所以做搜索引擎的优化实际上就是网络优化。但网络强大的反优化能力和人工干预机制,使得众多的优化者以失败以失败告终。对于大多数优化者来说,网络成了洪水猛兽。果真如此吗?网络行销大师邓友成认为不尽然。只要是搜索引擎就离不开算法,任何算法都是有规律可循的。下面我们深入浅出的探讨一下网络的算法吧。

一. 搜索信息响应

当用户向网络提出搜索请求后网络会迅速根据用户的请求提供比较精准的结果值。

1. 比喻当用户提交“搜索引擎 优化 技术”这个查询文字串.网络会将文字串分割成若干子文字串,用空格,标点符等做细分处理。那么这个文字串就可以分成“搜索引擎,优化,技术”。

2. 如果用户提交的请求有重复的文字符,例如”优化 技术 优化”,网络会将重复的文字符看成一个。而字符的出现顺序就忽略。

3. 当用户提交请求中出现英文字符,网络一般会将英文字符当作一个整体来看,并和中文词分割开来,如果中文出现数字也是这样处理的。

网络通过切割、重组、归并、减负等手段对用户请求进行精准响应,使搜索结果符合用户的想法,以节省用户的查询时间,提高查询效率。

二. 中文核心分词

中文分词是网络算法的核心要素。按中文语法习惯,三个字(含三个字)以下的文字符是独立精准的词汇,没有重组的必要,所以网络对三个字(含三个字)以下的文字符不考虑细分。这也是网络核心算法的第一层,也是响应数量最多的部分。一般这些文字符更新的时间比较慢一些,一周或两周的时间。属于大更新的范畴。

四个字符的网络就会毫不客气的大卸十八块比如,网络工具这个文字串,当用户发出搜索请求后,会发现在搜索结果里面出现了红色的标记,已经把这个文字符分成了“网络,工具”。当然如果是四个字以上的文字串就更不用说了。会分成更多的分词。

三、字词匹配

大概了解了网络的分词原理后,我们要了解的一个重要方面就是字词的匹配问题。如果不知道字词的匹配,做优化就是空谈了。

最大匹配法

最大匹配法亦称MM法。假设自动分词词典(或词库)中的最长词条是y个字,则取被处理材料当前字符串序列中的前y个字作为匹配字段,查找词典,若词典中存在这样的一个y字词,则匹配成功,匹配字段被作为一个词切分出来;如果在词典中找不到这样一个y字词,则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止。

正向最大匹配算法

正向最大匹配法(由左到右的方向)。首先粗分,按照句子把文本切成一个一个句子。然后把每个句子切成单字。字典按照树形结构存储,比如这句话“春天还会远吗”首先查找“春”字开头的词,然后按照字典树形结构往下走一个节点,查找“春”后面一个字是“天”的词,然后又下沉一个节点,找“还”下面是“会”的词,找不到了,查找就结束。

反向最大匹配算法

逆向最大匹配法(由右到左的方向);就是朝相反的方向发掘可以匹配的文字,比如网上商城这个文字串,那么会向左延伸在王上的前面会出现的结果是区域性的文字,不如上海或者北京等,在商城的前面会出现更精准的定义文字符,不如爱家,女人等专属性强的文字符。

双向最大匹配算法

正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。就是向左右纵深挖掘比较匹配的结果值。

熟悉了网络分词的方法后,我们就要在优化的过程充分的考虑相关联的因素,合理的对你所要向用户推荐的文字串做合理的规范和谋划。软优化欢迎优化者们和我们一道加强交流共同进步。

Ⅳ 什么是自动分词系统搜索引擎是如何实现的

紧接着上一讲,搜索引擎索引网页库建立之后,我们需要对索引网页库预处理,其中又分为两大类:网页分析和建立倒排文件索引。而搜索引擎的自动分词系统就是进行网页分析的前提。
首先,中文和英文不同的是,英文单词之间有空格,而中文都是连贯在一起来操作的,在形式上,无法做出区分。所以中文文本在进行网页分析之前,需要将文本切分为多个词或者字。在目前检索中,主要可以分为按字检索和按词检索,其中按词检索,拥有更快的速度和较高的准确性。
自动分词系统算法介绍
分词系统基本方法:基于字符串匹配的分词方法和基于统计的分词方法。
1)基于字符串匹配:也称为机械分词,按照几个既定的策略,将等待分析的字符串和一个容量足够大的词典中的词条进行匹配,若在词典中找到同样的一个字符串,那么匹配成功。
字符串匹配分词,按照扫描方向,可以分为:正向匹配和逆向匹配;按照不同长度有限匹配,可以分为:最大匹配和最小匹配;按照是否与词性标注相结合,可以分为:单纯分词方法和分词与标注相结合的一体化方法;
常用的机械分词方法:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少) (盐城SEO联想:使用正向最大匹配,逆向最大匹配,和我们SEO中经常用到的关键词靠前,则排名越有利,是否存在关联)
同时,在机械分词法中,存在这样一个模型:ASM(d,a,m);
d:匹配方向,+表示正向,-表示逆向;
a:每次匹配失败后增加或减少字串长度(字符串),“+”就是增加一个,“-”就是减少一个;
m:最大或最小匹配标志,+为最大匹配,-为最小匹配。
对于,中文汉字来说,ASM(+,=,+)是最为实用的方法。
2)基于统计的分词方法介绍:
在表现形式上,词是多个字的稳定组合,所以说,在文章中,相邻的字同时出现的次数越多,那么越有可能是一个词,因此,字和字相邻出现的的频率可以大概的反应出词的可信率。
通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来计算他们的互现信息,该互现信息体现了汉字之间结合的紧密程度,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
因为,只需要对字组频率进行计算,不需要使用词典,所以叫做无词典分词方法,或者说统计分词方法。
缺点:经常会抽出一些高频,但不是词的常用词组,如:“我们”“共同”“有的”等。
所以在正常使用中,统计分词法,都会使用一部基本的分词词典(常用词词典),通过字符串分词系统,识别出常用词组,同时通过统计分词系统,识别出新词,生词,两者结合,即发挥出字符串匹配分词系统的速度快,效率高,又可以利用统计分词系统识别生词,自动消除歧义的优点。

阅读全文

与演化算法在中文自动分词的应用相关的资料

热点内容
程序员可以干什么 浏览:70
绩效考核权重分配算法 浏览:524
android应用logo 浏览:898
光遇安卓服墓土商店什么时候开 浏览:566
月收益翻倍的源码 浏览:636
asop源码放在哪里 浏览:988
电脑服务器密码怎么找 浏览:574
jdp转换pdf 浏览:749
把pdf导入iphone 浏览:508
米哈游租赁的云服务器是哪个 浏览:524
android直接打电话 浏览:1016
ubuntu停止命令 浏览:283
cnc攻丝编程 浏览:869
换个手机号码app怎么注册 浏览:320
怎么下载小猴口算app 浏览:115
轻链app的货怎么样 浏览:625
电脑里的u盘如何加密 浏览:370
我的世界全部版本服务器下载地址 浏览:50
交换原理pdf 浏览:229
菜鸟驿站app怎么邀请新人 浏览:448