python语义分析库_Python中文分词的原理你知道吗

① python数据分析库有哪些

1.Numpy库
是Python开源的数值计算扩展工具，提供了Python对多维数组的支持，能够支持高级的维度数组与矩阵运算。此外，针对数组运算也提供了大量的数学函数库，Numpy是大部分Python科学计算的基础，具有很多功能。
2.Pandas库
是一个基于Numpy的数据分析包，为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型，提供了高效地操作大型数据集所需要的函数和方法，使用户能快速便捷地处理数据。
3.Matplotlib库
是一个用在Python中绘制数组的2D图形库，虽然它起源于模仿MATLAB图形命令，但它独立于MATLAB，可以通过Pythonic和面向对象的方式使用，是Python中最出色的绘图库。主要用纯Python语言编写的，它大量使用Numpy和其他扩展代码，即使对大型数组也能提供良好的性能。
4.Seaborn库
是Python中基于Matplotlib的数据可视化工具，提供了很多高层封装的函数，帮助数据分析人员快速绘制美观的数据图形，从而避免了许多额外的参数配置问题。
5.NLTK库
被称为使用Python进行教学和计算语言学工作的最佳工具，以及用自然语言进行游戏的神奇图书馆。NLTK是一个领先的平台，用于构建使用人类语言数据的Python程序，它为超过50个语料库和词汇资源提供了易于使用的接口，还提供了一套文本处理库，用于分类、标记化、词干化、解析和语义推理、NLP库的包装器和一个活跃的讨论社区。

② Python中文分词的原理你知道吗

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。表面上看，分词其实就是那么回事，但分词效果好不好对信息检索、实验结果还是有很大影响的，同时分词的背后其实是涉及各种各样的算法的。

中文分词与英文分词有很大的不同，对英文而言，一个单词就是一个词，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，需要人为切分。根据其特点，可以把分词算法分为四大类：

基于规则的分词方法

基于统计的分词方法

基于语义的分词方法

基于理解的分词方法

下面我们对这几种方法分别进行总结。

基于规则的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配法（MM）。基本思想是：假设自动分词词典中的最长词条所含汉字的个数为 i，则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段，查找分词词典，若词典中有这样一个 i 字词，则匹配成功，匹配字段作为一个词被切分出来；若词典中找不到这样的一个 i 字词，则匹配失败，匹配字段去掉最后一个汉字，剩下的字符作为新的匹配字段，再进行匹配，如此进行下去，直到匹配成功为止。统计结果表明，该方法的错误率为 1/169。

逆向最大匹配法（RMM）。该方法的分词过程与 MM 法相同，不同的是从句子（或文章）末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字。统计结果表明，该方法的错误率为 1/245。

逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料，一直到把全部的词切分出来为止。不论分词词典多大，被处理的材料多么小，都得把这个分词词典匹配一遍。

设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号，如标点符号等；非自然标志是利用词缀和不构成词的词（包括单音词、复音节词以及象声词等）。设立切分标志法首先收集众多的切分标志，分词时先找出切分标志，把句子切分为一些较短的字段，再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法，只是自动分词的一种前处理方式而已，它要额外消耗时间扫描切分标志，增加存储空间存放那些非自然切分标志。

最佳匹配法（OM）。此法分为正向的最佳匹配法和逆向的最佳匹配法，其出发点是：在词典中按词频的大小顺序排列词条，以求缩短对分词词典的检索时间，达到最佳效果，从而降低分词的时间复杂度，加快分词速度。实质上，这种方法也不是一种纯粹意义上的分词方法，它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项，所以其空间复杂度有所增加，对提高分词精度没有影响，分词处理的时间复杂度有所降低。

此种方法优点是简单，易于实现。但缺点有很多：匹配速度慢；存在交集型和组合型歧义切分问题；词本身没有一个标准的定义，没有统一标准的词集；不同词典产生的歧义也不同；缺乏自学习的智能性。

基于统计的分词方法

该方法的主要思想：词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计，计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

该方法所应用的主要的统计模型有：N 元文法模型（N-gram）、隐马尔可夫模型（Hiden Markov Model，HMM）、最大熵模型（ME）、条件随机场模型（Conditional Random Fields，CRF）等。

在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于语义的分词方法

语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

扩充转移网络法

该方法以有限状态机概念为基础。有限状态机只能识别正则语言，对有限状态机作的第一次扩充使其具有递归能力，形成递归转移网络（RTN）。在RTN 中，弧线上的标志不仅可以是终极符（语言中的单词）或非终极符（词类），还可以调用另外的子网络名字分非终极符（如字或字串的成词条件）。这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。词法扩充转移网络的使用，使分词处理和语言理解的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。

矩阵约束法

其基本思想是：先建立一个语法约束矩阵和一个语义约束矩阵，其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则，属于某语义类的词和属于另一词义类的词相邻是否符合逻辑，机器在切分时以之约束分词结果。

基于理解的分词方法

基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。

专家系统分词法

从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则）从实现分词过程的推理机中独立出来，使知识库的维护与推理机的实现互不干扰，从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。

神经网络分词法

该方法是模拟人脑并行，分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部，通过自学习和训练修改内部权值，以达到正确的分词结果，最后给出神经网络自动分词结果，如使用 LSTM、GRU 等神经网络模型等。

神经网络专家系统集成式分词法

该方法首先启动神经网络进行分词，当神经网络对新出现的词不能给出准确切分时，激活专家系统进行分析判断，依据知识库进行推理，得出初步分析，并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势，进一步提高分词效率。

以上便是对分词算法的基本介绍。

③ Python怎样使用解释器

大学里计算机科学最吸引我的地方就是编译器。最神奇的是，编译器是如何读出我写的那些烂代码，并且还能生成那么复杂的程序。当我终于选了一门编译方面的课程时，我发现这个过程比我想的要简单得多。

在本系列的文章中，我会试着通过为一种基本命令语言IMP写一个解释器，来展示这种简易性。因为IMP是一个简单广为人知的语言，所以打算用 Python写这个解释器。Python代码看起来很像伪代码，所以即使你不认识 Python，你也能理解它。解析可以通过一套从头开始实现的解析器组合完成（在本系列的下一篇文章中会有解释）。除了sys（用于I/O）、re（用于解析正则表达式）以及unittest（用于确保一切工作正常）库，没有使用其他额外的库。

IMP 语言

在开始写之前，我们先来讨论一下将要解释的语言。IMP是拥有下面结构的最小命令语言：

赋值语句（所有变量都是全局的，而且只能存储整数）：

Python

x := 1

条件语句：

Python

if x = 1 then

y := 2

else

y := 3

end

while循环：

Python

while x < 10 do

x := x + 1

end

复合语句（分号分隔）：

Python

x := 1;

y := 2

OK，所以它只是一门工具语言，但你可以很容易就把它扩展成比Lua或python更有用的语言。我希望能把这份教程能保持尽量简单。

下面这个例子是计算阶乘的程序：

Python

n := 5;

p := 1;

while n > 0 do

p := p * n;

n := n - 1

end

IMP没有读取输入的方式，所以初始状态必须是在程序最开始写一系列的赋值语句。也没有打印结果的方式，所以解释器必须在程序的结尾打印所有变量的值。

解释器的结构

解释器的核心是“中间表示”（Intermediate representation，IR）。这就是如何在内存中表示IMP程序。因为IMP是一个很简单的语言，中间表示将直接对应于语言的语法；每一种表达和语句都有对应的类。在一种更复杂的语言中，你不仅需要一个“语法表示”，还需要一个更容易分析或运行的“语义表示”。

解释器将会执行三个阶段：

将源码中的字符分割成标记符（token）
将标记符组织成一棵抽象语法树（AST）。抽象语法树就是中间表示。
评估这棵抽象语法树，并在最后打印这棵树的状态

将字符串分割成标记符的过程叫做“词法分析”，通过一个词法分析器完成。关键字是很短，易于理解的字符串，包含程序中最基本的部分，如数字、标识符、关键字和操作符。词法分析器会除去空格和注释，因为它们都会被解释器忽略。

实际执行这个解析过的抽象语法树的过程称为评估。这实际上是这个解析器中最简单的部分了。

本文会把重点放在词法分析器上。我们将编写一个通用的词汇库，然后用它来为IMP创建一个词法分析器。下一篇文章将会重点打造一个语法分析器和评估计算器。

词汇库

词法分析器的操作相当简单。它是基于正则表达式的，所以如果你不熟悉它们，你可能需要读一些资料。简单来说，正则表达式就是一种能描述其他字符串的特殊的格式化的字符串。你可以使用它们去匹配电话号码或是邮箱地址，或者是像我们遇到在这种情况，不同类型的标记符。

词法分析器的输入可能只是一个字符串。简单起见，我们将整个输入文件都读到内存中。输出是一个标记符列表。每个标记符包括一个值（它代表的字符串）和一个标记（表示它是一个什么类型的标记符）。语法分析器会使用这两个数据来决定如何构建一棵抽象语法树。

由于不论何种语言的词法分析器，其操作都大同小异，我们将创建一个通用的词法分析器，包括一个正则表达式列表和对应的标签（tag）。对每一个表达式，它都会检查是否和当前位置的输入文本匹配。如果匹配，匹配文本就会作为一个标记符被提取出来，并且被加上该正则表达式的标签。如果该正则表达式没有标签，那么这段文本将会被丢弃。这样免得我们被诸如注释和空格之类的垃圾字符干扰。如果没有匹配的正则表达式，程序就要报错并终止。这个过程会不断循环直到没有字符可匹配。

下面是一段来自词汇库的代码：

Python

import sys

import re

def lex(characters, token_exprs):

pos = 0

tokens = []

while pos < len(characters):

match = None

for token_expr in token_exprs:

pattern, tag = token_expr

regex = re.compile(pattern)

match = regex.match(characters, pos)

if match:

text = match.group(0)

if tag:

token = (text, tag)

tokens.append(token)

break

if not match:

sys.stderr.write('Illegal character: %sn' % characters[pos])

sys.exit(1)

else:

pos = match.end(0)

return tokens

注意，我们遍历正则表达式的顺序很重要。lex会遍历所有的表达式，然后接受第一个匹配成功的表达式。这也就意味着，当使用词法分析器时，我们应当首先考虑最具体的表达式（像那些匹配算子（matching operator）和关键词），其次才是比较一般的表达式（像标识符和数字）。

词法分析器

给定上面的lex函数，为IMP定义一个词法分析器就非常简单了。首先我们要做的就是为标记符定义一系列的标签。IMP只需要三个标签。RESERVED表示一个保留字或操作符。INT表示一个文字整数。ID代表标识符。

Python

import lexer

RESERVED = 'RESERVED'

INT= 'INT'

ID = 'ID'

接下来定义词法分析器将会用到的标记符表达式。前两个表达式匹配空格和注释。它们没有标签，所以 lex 会丢弃它们匹配到的所有字符。

Python

token_exprs = [

(r'[ nt]+',None),

(r'#[^n]*', None),

然后，只剩下所有的操作符和保留字了。记住，每个正则表达式前面的“r”表示这个字符串是“raw”；Python不会处理任何转义字符。这使我们可以在字符串中包含进反斜线，正则表达式正是利用这一点来转义操作符比如“＋”和“＊”。

Python

(r':=', RESERVED),

(r'(',RESERVED),

(r')',RESERVED),

(r';', RESERVED),

(r'+',RESERVED),

(r'-', RESERVED),

(r'*',RESERVED),

(r'/', RESERVED),

(r'<=',RESERVED),

(r'<', RESERVED),

(r'>=',RESERVED),

(r'>', RESERVED),

(r'=', RESERVED),

(r'!=',RESERVED),

(r'and', RESERVED),

(r'or',RESERVED),

(r'not', RESERVED),

(r'if',RESERVED),

(r'then',RESERVED),

(r'else',RESERVED),

(r'while', RESERVED),

(r'do',RESERVED),

(r'end', RESERVED),

最后，轮到整数和标识符的表达式。要注意的是，标识符的正则表达式会匹配上面的所有的保留字，所以它一定要留到最后。

Python

(r'[0-9]+',INT),

(r'[A-Za-z][A-Za-z0-9_]*', ID),

]

既然正则表达式已经定义好了，我们还需要创建一个实际的lexer函数。

Python

def imp_lex(characters):

return lexer.lex(characters, token_exprs)

如果你对这部分感兴趣，这里有一些驱动代码可以测试输出：

Python

import sys

from imp_lexer import *

if __name__ == '__main__':

filename = sys.argv[1]

file = open(filename)

characters = file.read()

file.close()

tokens = imp_lex(characters)

for token in tokens:

print token

继续……

在本系列的下一篇文章中，我会讨论解析器组合，然后描述如何使用他们从lexer中生成的标记符列表建立抽象语法树。

如果你对于实现IMP解释器很感兴趣，你可以从这里下载全部的源码。

在源码包含的示例文件中运行解释器：

Python

python imp.py hello.imp

运行单元测试：

Python

python test.py

④ py开发语言中哪里有知识库呢

第一：Python 标准库：
应该浏览一下这份文档，它为标准库中的类型、函数和模块提供了完整（尽管很简略）的参考资料。标准的 Python 发布版包括了大量的附加模块。其中有针对读取 Unix 邮箱、接收 HTTP 文档、生成随机数、解析命令行选项、写 CGI 程序、压缩数据以及很多其它任务的模块。略读一下库参考会给你很多解决问题的思路。
安装 Python 模块展示了如何安装其他 Python 用户编写的附加模块。
Python 语言参考：详细说明了 Python 语法和语义。
它读起来很累，不过对于语言本身，有份完整的手册很有用。
第二：其它 Python 资源：
http://www.python.org： Python 官方网站。它包含代码、文档和 Web 上与 Python 有关的页面链接该网站镜像于全世界的几处其它问题，类似欧洲、日本和澳大利亚。
镜像可能会比主站快，这取决于你的地理位置。
http://docs.python.org：快速访问 Python 的文档。
http://pypi.python.org： Python 包索引，以前昵称为奶酪店，索引了可供下载的，用户创建的 Python 模块。如果你发布了代码，可以注册到这里，这样别人可以找到它。
http://code.activestate.com/recipes/langs/python/： Python 食谱是大量的示例代码、大型的集合，和有用的脚本。
值得关注的是这次资源已经结集成书，名为《Python 食谱》（O’Reilly & Associates, ISBN 0-596-00797-3。）
http://scipy.org:The Scientific Python 项目包括数组快速计算和处理模块，和大量线性代数、傅里叶变换、非线性solvers、随机数分布，统计分析以及类似的包。
与 Python 有关的问题，以及问题报告，可以发到新闻组 comp.lang.python ，或者发送到邮件组 [email protected] 。新闻组和邮件组是开放的，所以发送的消息可以自动的跟到另一个之后。每天有超过 120 个投递（高峰时有数百）,提问（以及回答）问题，为新功能提建议，发布新模块。在发信之前，请查阅常见问题 (亦称 FAQ)，或者在 Python 源码发布包的 Misc/ 目录中查阅。邮件组也可以在http://mail.python.org/pipermail/访问。FAQ回答了很多被反复提到的问题，很可能已经解答了你的问题。
Next Previous

导航:首页 > 编程语言 > python语义分析库

python语义分析库

与python语义分析库相关的资料