python实时日志分析_又涨知识了清华大学教授推荐Python400集视频教程拿走

① 五款常用mysql slow log分析工具的比较

mysql slow log 是用来记录执行时间较长(超过long_query_time秒)的sql的一种日志工具

启用 slow log

有两种启用方式:

在f 里通过 log slow queries[=file_name]

在mysqld进程启动时指定–log slow queries[=file_name]选项

比较的五款常用工具

mysqlmpslow mysqlsla myprofi mysql explain slow log mysqllogfilter

mysqlmpslow mysql官方提供的慢查询日志分析工具输出图表如下:

主要功能是统计不同慢sql的

出现次数(Count)

执行最长时间(Time)

累计总耗费时间(Time)

等待锁的时间(Lock)

发送给客户端的行总数(Rows)

扫描的行总数(Rows)

用户以及sql语句本身(抽象了一下格式比如 limit 用 limit N N 表示)

mysqlsla 推出的一款日志分析工具(该网站还维护了 mysqlreport mysqlidxc 等比较实用的mysql工具)

整体来说功能非常强大数据报表非常有利于分析慢查询的原因包括执行频率数据量查询消耗等

格式说明如下:

总查询次数 (queries total) 去重后的sql数量 (unique)

输出报表的内容排序(sorted by)

最重大的慢sql统计信息包括平均执行时间等待锁时间结果行的总数扫描的行总数

Count sql的执行次数及占总的slow log数量的百分比

Time 执行时间包括总时间平均时间最小最大时间时间占到总慢sql时间的百分比

% of Time 去除最快和最慢的sql 覆盖率占 %的sql的执行时间

Lock Time 等待锁的时间

% of Lock %的慢sql等待锁时间

Rows sent 结果行统计数量包括平均最小最大数量

Rows examined 扫描的行数量

Database 属于哪个数据库

Users 哪个用户 IP 占到所有用户执行的sql百分比

Query abstract 抽象后的sql语句

Query sample sql语句

除了以上的输出官方还提供了很多定制化参数是一款不可多得的好工具

mysql explain slow log 德国人写的一个perl脚本

功能上有点瑕疵不仅把所有的 slow log 打印到屏幕上而且统计也只有数量而已不推荐使用

mysql log filter google code上找到的一个分析工具提供了 python 和 php 两种可执行的脚本

log filter/

功能上比官方的mysqlmpslow 多了查询时间的统计信息(平均最大累计) 其他功能都与 mysqlmpslow类似

特色功能除了统计信息外还针对输出内容做了排版和格式化保证整体输出的简洁喜欢简洁报表的朋友推荐使用一下

myprofi 纯php写的一个开源分析工具项目在 sourcefe 上

功能上列出了总的慢查询次数和类型去重后的sql语句执行次数及其占总的slow log数量的百分比

从整体输出样式来看比mysql log filter还要简洁省去了很多不必要的内容对于只想看sql语句及执行次数的用户来说比较推荐

总结

工具/功能一般统计信息高级统计信息脚本优势 mysqlmpslow 支持不支持 perl mysql官方自带 mysqlsla 支持支持 perl 功能强大数据报表齐全定制化能力强 mysql explain slow log 支持不支持 perl 无 mysql log filter 支持部分支持 python or php 不失功能的前提下保持输出简洁 myprofi 支持不支持 php 非常精简

lishixin/Article/program/MySQL/201311/29428

② Python - pytest

pytest是Python的单元测试框架，同自带的unittest框架类似，但pytest框架使用起来更简洁，效率更高。

pytest特点

安装

测试

在测试之前要做的准备

我的演示脚本处于这样一个的目录中：

踩坑：你创建的pytest脚本名称中不允许含有 . ，比如 1.简单上手.py ，这样会报错。当然，可以这么写 1-简单上手.py

demo1.py ：

上例中，当我们在执行（就像Python解释器执行普通的Python脚本一样）测试用例的时候， pytest.main(["-s", "demo1.py"]) 中的传参需要是一个元组或者列表（我的pytest是5.2.2版本），之前的版本可能需要这么调用 pytest.main("-s demo1.py") ，传的参数是str的形式，至于你使用哪种，取决于报不报错：

遇到上述报错，就是参数需要一个列表或者元组的形式，而我们使用的是str形式。

上述代码正确的执行结果是这样的：

大致的信息就是告诉我们:

pytest.main(["-s", "demo1.py"])参数说明

除了上述的函数这种写法，也可以有用例类的写法：

用法跟unittest差不多，类名要以 Test 开头，并且其中的用例方法也要以 test 开头，然后执行也一样。

执行结果：

那么，你这个时候可能会问，我记得unittest中有setup和teardown的方法，难道pytest中没有嘛？你怎么提都不提？稳住，答案是有的。

接下来，我们来研究一下pytest中的setup和teardown的用法。

我们知道，在unittest中，setup和teardown可以在每个用例前后执行，也可以在所有的用例集执行前后执行。那么在pytest中，有以下几种情况：

来一一看看各自的用法。

模块级别setup_mole/teardown_mole

执行结果：

类级别的setup_class/teardown_class

执行结果：

类中方法级别的setup_method/teardown_method

执行结果：

函数级别的setup_function/teardown_function

执行结果：

小结

该脚本有多种运行方式，如果处于PyCharm环境，可以使用右键或者点击运行按钮运行，也就是在pytest中的主函数中运行：

也可以在命令行中运行：

这种方式，跟使用Python解释器执行Python脚本没有什么两样。也可以如下面这么执行：

当然，还有一种是使用配置文件运行，来看看怎么用。

在项目的根目录下，我们可以建立一个 pytest.ini 文件，在这个文件中，我们可以实现相关的配置：

那这个配置文件中的各项都是什么意思呢？

首先， pytest.ini 文件必须位于项目的根目录，而且也必须叫做 pytest.ini 。

其他的参数：

OK，来个示例。

首先，（详细目录参考开头的目录结构）在 scripts/test_case_01.py 中：

在 scripts/test_case_dir1/test_case02.py 中：

那么，在不同的目录或者文件中，共有5个用例将被执行，而结果则是两个失败三个成功。来执行验证一下，因为有了配置文件，我们在终端中（前提是在项目的根目录），直接输入 pytest 即可。

由执行结果可以发现， 2 failed, 3 passed ，跟我们的预期一致。

后续执行相关配置都来自配置文件，如果更改，会有相应说明，终端都是直接使用 pytest 执行。

我们知道在unittest中，跳过用例可以用 skip ，那么这同样是适用于pytest。

来看怎么使用：

跳过用例，我们使用 @pytest.mark.skipif(condition, reason) ：

然后将它装饰在需要被跳过用例的的函数上面。

效果如下：

上例执行结果相对详细，因为我们在配置文件中为 addopts 增加了 -v ，之前的示例结果中，没有加！
另外，此时，在输出的控制台中，还无法打印出 reason 信息，如果需要打印，则可以在配置文件中的 addopts 参数的 -s 变为 -rs ：

如果我们事先知道测试函数会执行失败，但又不想直接跳过，而是希望显示的提示。

Pytest 使用 pytest.mark.xfail 实现预见错误功能：：

需要掌握的必传参数的是：

那么关于预期失败的几种情况需要了解一下：

结果如下：

pytest 使用 x 表示预见的失败（XFAIL）。

如果预见的是失败，但实际运行测试却成功通过，pytest 使用 X 进行标记（XPASS）。

而在预期失败的两种情况中，我们不希望出现预期失败，结果却执行成功了的情况出现，因为跟我们想的不一样嘛，我预期这条用例失败，那这条用例就应该执行失败才对，你虽然执行成功了，但跟我想的不一样，你照样是失败的！

所以，我们需要将预期失败，结果却执行成功了的用例标记为执行失败，可以在 pytest.ini 文件中，加入：

这样就就把上述的情况标记为执行失败了。

pytest身为强大的单元测试框架，那么同样支持DDT数据驱动测试的概念。也就是当对一个测试函数进行测试时，通常会给函数传递多组参数。比如测试账号登陆，我们需要模拟各种千奇百怪的账号密码。

当然，我们可以把这些参数写在测试函数内部进行遍历。不过虽然参数众多，但仍然是一个测试，当某组参数导致断言失败，测试也就终止了。

通过异常捕获，我们可以保证程所有参数完整执行，但要分析测试结果就需要做不少额外的工作。

在 pytest 中，我们有更好的解决方法，就是参数化测试，即每组参数都独立执行一次测试。使用的工具就是 pytest.mark.parametrize(argnames, argvalues) 。

使用就是以装饰器的形式使用。

只有一个参数的测试用例

来看（重要部分）结果：：

可以看到，列表内的每个手机号，都是一条测试用例。

多个参数的测试用例

（重要部分）结果：

可以看到，每一个手机号与每一个验证码都组合一起执行了，这样就执行了4次。那么如果有很多个组合的话，用例数将会更多。我们希望手机号与验证码一一对应组合，也就是只执行两次，怎么搞呢？

在多参数情况下，多个参数名是以 , 分割的字符串。参数值是列表嵌套的形式组成的。

固件（Fixture）是一些函数，pytest 会在执行测试函数之前（或之后）加载运行它们，也称测试夹具。

我们可以利用固件做任何事情，其中最常见的可能就是数据库的初始连接和最后关闭操作。

Pytest 使用 pytest.fixture() 定义固件，下面是最简单的固件，访问主页前必须先登录：

结果：

在之前的示例中，你可能会觉得，这跟之前的setup和teardown的功能也类似呀，但是，fixture相对于setup和teardown来说更灵活。pytest通过 scope 参数来控制固件的使用范围，也就是作用域。

比如之前的login固件，可以指定它的作用域：

很多时候需要在测试前进行预处理（如新建数据库连接），并在测试完成进行清理（关闭数据库连接）。

当有大量重复的这类操作，最佳实践是使用固件来自动化所有预处理和后处理。

Pytest 使用 yield 关键词将固件分为两部分， yield 之前的代码属于预处理，会在测试前执行； yield 之后的代码属于后处理，将在测试完成后执行。

以下测试模拟数据库查询，使用固件来模拟数据库的连接关闭：

结果：

可以看到在两个测试用例执行前后都有预处理和后处理。

pytest中还有非常多的插件供我们使用，我们来介绍几个常用的。

先来看一个重要的，那就是生成测试用例报告。

想要生成测试报告，首先要有下载，才能使用。

下载

如果下载失败，可以使用PyCharm下载，怎么用PyCharm下载这里无需多言了吧。

使用

在配置文件中，添加参数：

效果很不错吧！

没完，看我大招

Allure框架是一个灵活的轻量级多语言测试报告工具，它不仅以web的方式展示了简洁的测试结果，而且允许参与开发过程的每个人从日常执行的测试中最大限度的提取有用信息。
从开发人员（dev，developer）和质量保证人员（QA，Quality Assurance）的角度来看，Allure报告简化了常见缺陷的统计：失败的测试可以分为bug和被中断的测试，还可以配置日志、步骤、fixture、附件、计时、执行历史以及与TMS和BUG管理系统集成，所以，通过以上配置，所有负责的开发人员和测试人员可以尽可能的掌握测试信息。
从管理者的角度来看，Allure提供了一个清晰的“大图”，其中包括已覆盖的特性、缺陷聚集的位置、执行时间轴的外观以及许多其他方便的事情。allure的模块化和可扩展性保证了我们总是能够对某些东西进行微调。

少扯点，来看看怎么使用。

Python的pytest中allure下载

但由于这个 allure-pytest 插件生成的测试报告不是 html 类型的，我们还需要使用allure工具再“加工”一下。所以说，我们还需要下载这个allure工具。

allure工具下载

在现在allure工具之前，它依赖java环境，我们还需要先配置Java环境。

注意，如果你的电脑已经有了Java环境，就无需重新配置了。

配置完了Java环境，我们再来下载allure工具，我这里直接给出了网络云盘链接，你也可以去其他链接中自行下载：

下载并解压好了allure工具包之后，还需要将allure包内的 bin 目录添加到系统的环境变量中。

完事后打开你的终端测试：

返回了版本号说明安装成功。

使用

一般使用allure要经历几个步骤：

来看配置 pytest.ini ：

就是 --alluredir ./report/result 参数。

在终端中输入 pytest 正常执行测试用例即可：

执行完毕后，在项目的根目下，会自动生成一个 report 目录，这个目录下有：

接下来需要使用allure工具来生成HTML报告。

此时我们在终端（如果是windows平台，就是cmd），路径是项目的根目录，执行下面的命令。

PS：我在pycharm中的terminal输入allure提示'allure' 不是内部或外部命令，也不是可运行的程序或批处理文件。但windows的终端没有问题。

命令的意思是，根据 reportresult 目录中的数据（这些数据是运行pytest后产生的）。在 report 目录下新建一个 allure_html 目录，而这个目录内有 index.html 才是最终的allure版本的HTML报告；如果你是重复执行的话，使用 --clean 清除之前的报告。

结果很漂亮：

allure open
默认的，allure报告需要HTTP服务器来打开，一般我们可以通过pycharm来完成，另外一种情况就是通过allure自带的open命令来完成。

allure的其他用法
当然，故事还是没有完！在使用allure生成报告的时候，在编写用例阶段，还可以有一些参数可以使用：

allure.title与allure.description

feature和story

由上图可以看到，不同的用例被分为不同的功能中。

allure.severity

allure.severity 用来标识测试用例或者测试类的级别，分为blocker，critical，normal，minor，trivial5个级别。

severity的默认级别是normal，所以上面的用例5可以不添加装饰器了。

allure.dynamic

在之前，用例的执行顺序是从上到下依次执行：

正如上例的执行顺序是 3 1 2 。

现在，来看看我们如何手动控制多个用例的执行顺序，这里也依赖一个插件。

下载

使用

手动控制用例执行顺序的方法是在给各用例添加一个装饰器：

那么，现在的执行顺序是 2 1 3 ，按照order指定的排序执行的。

如果有人较劲传个0或者负数啥的，那么它们的排序关系应该是这样的：

失败重试意思是指定某个用例执行失败可以重新运行。

下载

使用

需要在 pytest.ini 文件中，配置：

给 addopts 字段新增（其他原有保持不变） --reruns=3 字段，这样如果有用例执行失败，则再次执行，尝试3次。

来看示例：

结果：

我们也可以从用例报告中看出重试的结果：

上面演示了用例失败了，然后重新执行多少次都没有成功，这是一种情况。

接下来，来看另一种情况，那就是用例执行失败，重新执行次数内通过了，那么剩余的重新执行的次数将不再执行。

通过 random 模块帮助我们演示出在某次执行中出现失败的情况，而在重新执行的时候，会出现成功的情况，看结果：

可以看到，用例 02 重新执行了一次就成功了，剩余的两次执行就终止了。

一条一条用例的执行，肯定会很慢，来看如何并发的执行测试用例，当然这需要相应的插件。

下载

使用

在配置文件中添加：

就是这个 -n=auto ：

并发的配置可以写在配置文件中，然后其他正常的执行用例脚本即可。另外一种就是在终端中指定，先来看示例：

结果：

pytest-sugar 改变了 pytest 的默认外观，添加了一个进度条，并立即显示失败的测试。它不需要配置，只需下载插件即可，用 pytest 运行测试，来享受更漂亮、更有用的输出。

下载

其他照旧执行用例即可。

pytest-cov 在 pytest 中增加了覆盖率支持，来显示哪些代码行已经测试过，哪些还没有。它还将包括项目的测试覆盖率。

下载

使用

在配置文件中：

也就是配置 --cov=./scripts ，这样，它就会统计所有 scripts 目录下所有符合规则的脚本的测试覆盖率。

执行的话，就照常执行就行。

结果：

更多插件参考：https://zhuanlan.hu.com/p/50317866

有的时候，在 pytest.ini 中配置了 pytest-html 和 allure 插件之后，执行后报错：

出现了这个报错，检查你配置的解释器中是否存在 pytest-html 和 allure-pytest 这两个模块。如果是使用的pycharm ide，那么你除了检查settings中的解释器配置之外，还需要保证运行脚本的编辑器配置是否跟settings中配置一致。

③ 又涨知识了，清华大学教授推荐Python400集视频教程，拿走

Python是世界上功能最多，功能最强大的编程语言之一。通过Python，可以编写自己的应用程序，创建游戏，设计算法，甚至编程机器人。而且Python的热度现在一直高居不下，比如，完成同一个任务，C语言要写1000行代码，Java只需要写100行，而Python可能只要20行。

清华北大教授万赞Python全集视频教程，这就是你需要的

如果你想选择一种语言来入门编程，那么Python绝对是首选！其非常接近自然语言，精简了很多不必要的分号和括号，非常容易阅读理解。编程简单直接，更适合初学编程者，让其专注于编程逻辑，而不是困惑于晦涩的语法细节上，比起JAVA、C#和C/C++这些编程语言相对容易很多。

因此，即使是非计算机专业或者没有基础的小白，也能分分钟入门。

但是呢，前提是一定要坚持学习！！！

阶段一：Python基础知识和高级特性

阶段二：linux基础

阶段三：数据库原理和sql优化

阶段四：前端web开发

阶段五：Python Web后端开发

阶段六：爬虫和数据分析

阶段七：Python人工智能

Python基础语法的掌握

清华北大教授万赞Python全集视频教程，这就是你需要的

1. Python基础语法的掌握是必备技能，认识到了Python语言的优雅，即使你之前用过其他开发语言，也会转到Python的行列中

2. 掌握字符串的解析

3. 未来你会意识到各种各样的程序直接就是把字符串传来传去，包括海量日志分析，日志即字符串，所以字符串操作就是未来做项目的基础对文件的操作

4. Linux中一切皆文件，对文件的操作掌握了那么你会发现在此时你有能力将之前的Linux中的Shell脚本改写成Python脚本，至于为啥要改写？脚本更加简洁、易读嘛！

5. 掌握面向对象的思想

6. 面向对象思想对于开发程序员来说，不管未来你选择做哪一方面，使用什么语言开发，都是必须要掌握的，对于一个开发企业级的持续可扩展的项目至关重要

7. 掌握常见设计模式和排序算法

8. 设计模式的掌握可以让你的项目变得更好维护，是一种经验的总结，排序算法很多种，项目经常会有取TopN的需求，所以常见设计模式和算法排序面试官们很喜欢问，也是为后面的项目打好一个扎实的基础

下面是北京大学毕业的高琪老师亲手打造的python学习路线和视频。共分为7大阶段.

现在免费分享给大家哦！获取在文末！！！

清华北大教授万赞Python全集视频教程，这就是你需要的

清华北大教授万赞Python全集视频教程，这就是你需要的

第一阶段

清华北大教授万赞Python全集视频教程，这就是你需要的

python开发基础和核心特性

1.变量及运算符

2.分支及循环

3.循环及字符串

4.列表及嵌套列表

5.字典及项目练习

6.函数的使用

7.递归及文件处理

8.文件

9.面向对象

10.设计模式及异常处理

11.异常及模块的使用

12.坦克大战

13.核心编程

14.高级特性

15.内存管理

第二阶段

清华北大教授万赞Python全集视频教程，这就是你需要的

数据库和linux基础

1.并发编程

2.网络通信

3.MySQL

4.Linux

5.正则表达式

第三阶段

清华北大教授万赞Python全集视频教程，这就是你需要的

web前端开发基础

1.html基本标签

2.css样式

3.css浮动和定位

4.js基础

5.js对象和函数

6.js定时器和DOM

7.js事件响应

8.使用jquery

9.jquery动画特效

10.Ajax异步网络请求

第四阶段

清华北大教授万赞Python全集视频教程，这就是你需要的

Python Web框架阶段

1.Django-Git版本控制

2.Django-博客项目

3.Django-商城项目

4.Django模型层

5.Django入门

6.Django模板层

7.Django视图层

8.Tornado框架

第五阶段

清华北大教授万赞Python全集视频教程，这就是你需要的

Python 爬虫实战开发

1.Python爬虫基础

2.Python爬虫Scrapy框架

以上这python自学教程我已经为大家打包准备好了，希望对正在学习的你有所帮助！

④ python脚本分析/var/log/secure登录日志并处理

因为自己有服务器，发现/var/log/secure 日志中最近出现大量验证失败的日志，故找了个脚本跑了下，具体如下

创建成功后给脚本加执行权限后即可运行，默认将失败IP错误次数达到50次以上的就会加入到/etc/hosts.deny中进行拒绝连接处理。

建议将脚本增加crontab 定时任务自动处理，间隔10分钟处理一次

⑤ Python日志—Python日志模块logging介绍

从事与软件相关工作的人，应该都听过“日志”一词。

日志就是跟踪软件运行时事件的方法，为了能够在程序运行过程中记录错误。

通过日志记录程序的运行，方便我们查询信息，以便追踪问题、进行维护和调试、还是数据分析。

并且各编程语言都形成了各自的日志体系和相应的框架。

日志的作用总结：

首先我们要树立一个观点，那就是“不是为了记录日志而记录日志，日志也不是随意记的”。要实现能够只通过日志文件还原整个程序执行的过程，达到能透明地看到程序里执行情况，每个线程每个过程到底执行结果的目的。日志就像飞机的黑匣子一样，应当能够复原异常的整个现场乃至细节。

在项目中，日志这个功能非常重要，我们要重视起来。

在Python中，使用logging模块来进行日志的处理。

logging是Python的内置模块，主要用于将日志信息进行格式化内容输出，可将格式化内容输出到文件，也可输出到屏幕。

我们在开发过程中，常用print()函数来进行调试，但是在实际应用的部署时，我们要将日志信息输出到文件中，方便后续查找以及备份。

在我们使用日志管理时，我们也可以将日志格式化成Json对象转存到ELK中方便图形化查看及管理。

logging模块将日志系统从高向低依次定义了四个类，分别是logger（日志器）、handler（处理器）、filter(过滤器)和formatter(格式器)。其中由日志器生成的实例将接管原本日志记录函数logging.log的功能。

说明：

我们先来思考下下面的两个问题：

在软件开发阶段或部署开发环境时，为了尽可能详细的查看应用程序的运行状态来保证上线后的稳定性，我们可能需要把该应用程序所有的运行日志全部记录下来进行分析，这是非常耗费机器性能的。

当应用程序正式发布或在生产环境部署应用程序时，我们通常只需要记录应用程序的异常信息、错误信息等，这样既可以减小服务器的I/O压力，也可以避免我们在排查故障时被淹没在日志的海洋里。

那么怎样才能在不改动应用程序代码的情况下，根据事件的重要性或者称之为等级，实现在不同的环境中，记录不同详细程度的日志呢？

这就是日志等级的作用了，我们通过配置文件指定我们需要的日志等级就可以了。

说明：

总结：

开发应用程序时或部署开发环境时，可以使用DEBUG或INFO级别的日志获取尽可能详细的日志信息，可以方便进行开发或部署调试。应用上线或部署生产环境时，应用使用WARNING或ERROR或CRITICAL级别的日志，来降低机器的I/O压力和提高获取错误日志信息的效率。日志级别的指定通常都是在应用程序的配置文件中进行指定的。不同的应用程序所定义的日志等级会有所差别，根据实际需求来决定。

⑥ python代码没错但运行不出来

python代码没错但运行不出来是什么原因呢？不知道的小伙伴来看看今天的分享吧！
1、python代码没错但运行不出来的原因：
某项目中使用python脚本方式将日志文件中的数据持续的转换格式输出到另一文件中以供其他日志分析应用使用。但是当后台运行采取重定向方式输出到某一文件时，发现并没有内容输出，命令如下：
pythonxxx.py>xxx.log&
测试发现，当前台直接输出到终端时正常，使用后台运行重定向的方式输出到文件中时无法输出。

2、解决办法：
发现是在程序运行时，输出有缓存，只有当程序运行结束或者缓冲区满后才会输出。因为程序是一致在运行的所以不可能等待程序结束在输出。并且要求是有实时性的所以等缓冲区满输出的方式也不可取。
所以采用在python运行时加上-u参数，如：
python-uxxx.py>xxx.log&
-u参数的意义是不使用缓冲的方式输入输出
详细如下：
Forcestdin，.Onsystemswhereitmatters，alsoputstdin，stdoutandstderrinbinarymode.()，readlines()andfile-objectiterators("forlineinsys.stdin”).Toworkaroundthis，youwillwanttouse"sys.stdin.readline()”insidea"while1：”loop.
补充知识：python中运行代码时没有报错但是也没有输出而且还有exitcode0的结束标志
如下所示：
f=open("passwd.txt"，'r')
print(f.read(4))
f.close()
这是想要执行的代码
passwd.txt中的内容
ntp：x：38：38：：/etc/ntp：/sbin/nologin
apache：x：48：48：Apache：/var/www：/sbin/nologin
saslauth：x：498：76：Saslauthser：/var/empty/saslauth：/sbin/nologin
postfix：x：89：89：：/var/spool/postfix：/sbin/nologin
gdm：x：42：42：：/var/lib/gdm：/sbin/nologin
pulse：x：497：496：PulseAudioSystemDaemon：/var/run/pulse：/sbin/nologin
但是输出的结果是
Processfinishedwithexitcode0
后来排查发现原来是解释器的问题
我之前使用的解释器是pycharm提供的虚拟解释器
#####如何查看解释器
点file？C>newprojects

如果选择的是2就是使用了pycharm提供的虚拟解释器，又因为passwd.txt文件不是在虚拟环境中的所以就没有输出。
点击3然后选择你已经下载好的解释器即可。
以上就是今天的分享了，希望可以帮助到大家。

⑦ Loguru：Python 日志终极解决方案

日志的作用非常重要，日志可以记录用户的操作、程序的异常，还可以为数据分析提供依据，日志的存在意义就是为了能够在程序在运行过程中记录错误，方便维护和调试，能够快速定位出错的地方，减少维护成本。每个程序员都应该知道，不是为了记录日志而记录日志，日志也不是随意记的。要实现能够只通过日志文件还原整个程序执行的过程，达到能透明地看到程序里执行情况，每个线程、每个过程到底执行到哪的目的。日志就像飞机的黑匣子一样，应当能够复原异常的整个现场乃至细节！

最常见的是把输出函数 print() 当作日志记录的方式，直接打印各种提示信息，常见于个人练习项目里，通常是懒得单独配置日志，而且项目太小不需要日志信息，不需要上线，不需要持续运行，完整的项目不推荐直接打印日志信息，现实中也几乎没有人这么做。

我们可以在不少小项目里面看到作者自己写了一个日志模板，通常利用 print() 或者 sys.stdout 稍微封装一下即可实现简单的日志输出，这里的 sys.stdout 是 Python 中的标准输出流， print() 函数是对 sys.stdout 的高级封装，当我们在 Python 中打印对象调用 print(obj) 时候，事实上是调用了 sys.stdout.write(obj+'\n') ， print() 将内容打印到了控制台，然后追加了一个换行符 \n 。

自写日志模板适合比较小的项目，可以按照自己的喜好编写模板，不需要太多复杂配置，方便快捷，但是这种记录日志的方式并不是很规范，有可能你自己觉得阅读体验不错，但是别人在接触你的项目的时候往往需要花费一定的时间去学习日志的逻辑、格式、输出方式等，比较大的项目同样不推荐这种方法。

一个简单的自写日志模板举例：

日志模板 log.py：

调用日志模块：

日志输出：

在一个完整的项目中，大多数人都会引入专门的日志记录库，而 Python 自带的标准库 logging 就是专门为日志记录而生的，logging 模块定义的函数和类为应用程序和库的开发实现了一个灵活的事件日志系统。由标准库模块提供日志记录 API 的关键好处是所有 Python 模块都可以使用这个日志记录功能。所以，你的应用日志可以将你自己的日志信息与来自第三方模块的信息整合起来。

logging 模块虽然强大，但是其配置也是比较繁琐的，在大型项目中通常需要单独初始化日志、配置日志格式等等，K哥在日常使用中通常都会对 logging 做如下的封装写法，使日志可以按天保存，保留15天的日志，可以配置是否输出到控制台和文件，如下所示：

输出日志：

它在控制台中是这样的：

当然，如果你不需要很复杂的功能，希望简洁一点，仅仅需要在控制台输出一下日志的话，也可以只进行简单的配置：

对于 logging 模块，即便是简单的使用，也需要自己定义格式，这里介绍一个更加优雅、高效、简洁的第三方模块：loguru，官方的介绍是：Loguru is a library which aims to bring enjoyable logging in Python. Loguru 旨在为 Python 带来愉快的日志记录。这里引用官方的一个 GIF 来快速演示其功能：

Loguru 仅支持 Python 3.5 及以上的版本，使用 pip 安装即可：

Loguru 的主要概念是只有一个：logger

控制台输出：

可以看到不需要手动设置，Loguru 会提前配置一些基础信息，自动输出时间、日志级别、模块名、行号等信息，而且根据等级的不同，还自动设置了不同的颜色，方便观察，真正做到了开箱即用！

如果想自定义日志级别，自定义日志格式，保存日志到文件该怎么办？与 logging 模块不同，不需要 Handler，不需要 Formatter，只需要一个 add() 函数就可以了，例如我们想把日志储存到文件：

我们不需要像 logging 模块一样再声明一个 FileHandler 了，就一行 add() 语句搞定，运行之后会发现目录下 test.log 里面同样出现了刚刚控制台输出的 debug 信息。

与 add() 语句相反， remove() 语句可以删除我们添加的配置：

此时控制台会输出两条 debug 信息：

而 test.log 日志文件里面只有一条 debug 信息，原因就在于我们在第二条 debug 语句之前使用了 remove() 语句。

Loguru 对输出到文件的配置有非常强大的支持，比如支持输出到多个文件，分级别分别输出，过大创建新文件，过久自动删除等等。下面我们来详细看一下 add() 语句的详细参数：

基本语法：

基本参数释义：

当且仅当 sink 是协程函数时，以下参数适用：

当且仅当 sink 是文件路径时，以下参数适用：

这么多参数可以见识到 add() 函数的强大之处，仅仅一个函数就能实现 logging 模块的诸多功能，接下来介绍几个比较常用的方法。

add() 函数的 rotation 参数，可以实现按照固定时间创建新的日志文件，比如设置每天 0 点新创建一个 log 文件：

设置超过 500 MB 新创建一个 log 文件：

设置每隔一个周新创建一个 log 文件：

add() 函数的 retention 参数，可以设置日志的最长保留时间，比如设置日志文件最长保留 15 天：

设置日志文件最多保留 10 个：

也可以是一个 datetime.timedelta 对象，比如设置日志文件最多保留 5 个小时：

add() 函数的 compression 参数，可以配置日志文件的压缩格式，这样可以更加节省存储空间，比如设置使用 zip 文件格式保存：

其格式支持： gz 、 bz2 、 xz 、 lzma 、 tar 、 tar.gz 、 tar.bz2 、 tar.xz

Loguru 在输出 log 的时候还提供了非常友好的字符串格式化功能，相当于 str.format() ：

输出：

在 Loguru 里可以直接使用它提供的装饰器就可以直接进行异常捕获，而且得到的日志是无比详细的：

日志输出：

在控制台的输出是这样的：

相比 Logging，Loguru 无论是在配置方面、日志输出样式还是异常追踪，都远优于 Logging，使用 Loguru 无疑能提升开发人员效率。本文仅介绍了一些常用的方法，想要详细了解可参考 Loguru 官方文档或关注 Loguru GitHub 。

⑧ 消息中间件（一）MQ详解及四大MQ比较

一、消息中间件相关知识

1、概述

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发RocketMQ等。

2、消息中间件的组成

2.1 Broker

消息服务器，作为server提供消息核心服务

2.2 Procer

消息生产者，业务的发起方，负责生产消息传输给broker，

2.3 Consumer

消息消费者，业务的处理方，负责从broker获取消息并进行业务逻辑处理

2.4 Topic

2.5 Queue

2.6 Message

消息体，根据不同通信协议定义的固定格式进行编码的数据包，来封装业务数据，实现消息的传输

3 消息中间件模式分类

3.1 点对点

PTP点对点:使用queue作为通信载体

说明：

消息生产者生产消息发送到queue中，然后消息消费者从queue中取出并且消费消息。

消息被消费以后，queue中不再存储，所以消息消费者不可能消费到已经被消费的消息。 Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

说明：

queue实现了负载均衡，将procer生产的消息发送到消息队列中，由多个消费者消费。但一个消息只能被一个消费者接受，当没有消费者可用时，这个消息会被保存直到有一个可用的消费者。

4 消息中间件的优势

4.1 系统解耦

交互系统之间没有直接的调用关系，只是通过消息传输，故系统侵入性不强，耦合度低。

4.2 提高系统响应时间

例如原来的一套逻辑，完成支付可能涉及先修改订单状态、计算会员积分、通知物流配送几个逻辑才能完成；通过MQ架构设计，就可将紧急重要（需要立刻响应）的业务放到该调用方法中，响应要求不高的使用消息队列，放到MQ队列中，供消费者处理。

4.3 为大数据处理架构提供服务

通过消息作为整合，大数据的背景下，消息队列还与实时处理架构整合，为数据处理提供性能支持。

4.4 Java消息服务——JMS

Java消息服务（Java Message Service，JMS）应用程序接口是一个Java平台中关于面向消息中间件（MOM）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。

5 消息中间件应用场景

5.1 异步通信

有些业务不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

5.2 解耦

降低工程间的强依赖程度，针对异构系统进行适配。在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。通过消息系统在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口，当应用发生变化时，可以独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

5.3 冗余

有些情况下，处理数据的过程会失败。除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的”插入-获取-删除”范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

5.4 扩展性

因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。不需要改变代码、不需要调节参数。便于分布式扩容。

5.5 过载保护

在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量无法提取预知；如果以为了能处理这类瞬间峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5.6 可恢复性

系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

5.7 顺序保证

在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。

5.8 缓冲

在任何重要的系统中，都会有需要不同的处理时间的元素。消息队列通过一个缓冲层来帮助任务最高效率的执行，该缓冲有助于控制和优化数据流经过系统的速度。以调节系统响应时间。

5.9 数据流处理

分布式系统产生的海量数据流，如：业务日志、监控数据、用户行为等，针对这些数据流进行实时或批量采集汇总，然后进行大数据分析是当前互联网的必备技术，通过消息队列完成此类数据收集是最好的选择。

6 消息中间件常用协议

6.1 AMQP协议

AMQP即Advanced Message Queuing Protocol,一个提供统一消息服务的应用层标准高级消息队列协议,是应用层协议的一个开放标准,为面向消息的中间件设计。基于此协议的客户端与消息中间件可传递消息，并不受客户端/中间件不同产品，不同开发语言等条件的限制。

优点：可靠、通用

6.2 MQTT协议

MQTT（Message Queuing Telemetry Transport，消息队列遥测传输）是IBM开发的一个即时通讯协议，有可能成为物联网的重要组成部分。该协议支持所有平台，几乎可以把所有联网物品和外部连接起来，被用来当做传感器和致动器（比如通过Twitter让房屋联网）的通信协议。

优点：格式简洁、占用带宽小、移动端通信、PUSH、嵌入式系统

6.3 STOMP协议

STOMP（Streaming Text Orientated Message Protocol）是流文本定向消息协议，是一种为MOM(Message Oriented Middleware，面向消息的中间件)设计的简单文本协议。STOMP提供一个可互操作的连接格式，允许客户端与任意STOMP消息代理（Broker）进行交互。

优点：命令模式（非topicqueue模式）

6.4 XMPP协议

XMPP（可扩展消息处理现场协议，Extensible Messaging and Presence Protocol）是基于可扩展标记语言（XML）的协议，多用于即时消息（IM）以及在线现场探测。适用于服务器之间的准即时操作。核心是基于XML流传输，这个协议可能最终允许因特网用户向因特网上的其他任何人发送即时消息，即使其操作系统和浏览器不同。

优点：通用公开、兼容性强、可扩展、安全性高，但XML编码格式占用带宽大

6.5 其他基于TCP/IP自定义的协议

有些特殊框架（如：redis、kafka、zeroMq等）根据自身需要未严格遵循MQ规范，而是基于TCPIP自行封装了一套协议，通过网络socket接口进行传输，实现了MQ的功能。

7 常见消息中间件MQ介绍

7.1 RocketMQ

阿里系下开源的一款分布式、队列模型的消息中间件，原名Metaq，3.0版本名称改为RocketMQ，是阿里参照kafka设计思想使用java实现的一套mq。同时将阿里系内部多款mq产品（Notify、metaq）进行整合，只维护核心功能，去除了所有其他运行时依赖，保证核心功能最简化，在此基础上配合阿里上述其他开源产品实现不同场景下mq的架构，目前主要多用于订单交易系统。

具有以下特点：

官方提供了一些不同于kafka的对比差异：

https://rocketmq.apache.org/docs/motivation/

7.2 RabbitMQ

使用Erlang编写的一个开源的消息队列，本身支持很多的协议：AMQP，XMPP, SMTP,STOMP，也正是如此，使的它变的非常重量级，更适合于企业级的开发。同时实现了Broker架构，核心思想是生产者不会将消息直接发送给队列，消息在发送给客户端时先在中心队列排队。对路由(Routing)，负载均衡(Load balance)、数据持久化都有很好的支持。多用于进行企业级的ESB整合。

7.3 ActiveMQ

Apache下的一个子项目。使用Java完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现，少量代码就可以高效地实现高级应用场景。可插拔的传输协议支持，比如：in-VM, TCP, SSL, NIO, UDP, multicast, JGroups and JXTA transports。RabbitMQ、ZeroMQ、ActiveMQ均支持常用的多种语言客户端 C++、Java、.Net,、Python、 Php、 Ruby等。

7.4 Redis

使用C语言开发的一个Key-Value的NoSQL数据库，开发维护很活跃，虽然它是一个Key-Value数据库存储系统，但它本身支持MQ功能，所以完全可以当做一个轻量级的队列服务来使用。对于RabbitMQ和Redis的入队和出队操作，各执行100万次，每10万次记录一次执行时间。测试数据分为128Bytes、512Bytes、1K和10K四个不同大小的数据。实验表明：入队时，当数据比较小时Redis的性能要高于RabbitMQ，而如果数据大小超过了10K，Redis则慢的无法忍受；出队时，无论数据大小，Redis都表现出非常好的性能，而RabbitMQ的出队性能则远低于Redis。

7.5 Kafka

Apache下的一个子项目，使用scala实现的一个高性能分布式Publish/Subscribe消息队列系统，具有以下特性：

7.6 ZeroMQ

号称最快的消息队列系统，专门为高吞吐量/低延迟的场景开发，在金融界的应用中经常使用，偏重于实时数据通信场景。ZMQ能够实现RabbitMQ不擅长的高级/复杂的队列，但是开发人员需要自己组合多种技术框架，开发成本高。因此ZeroMQ具有一个独特的非中间件的模式，更像一个socket library，你不需要安装和运行一个消息服务器或中间件，因为你的应用程序本身就是使用ZeroMQ API完成逻辑服务的角色。但是ZeroMQ仅提供非持久性的队列，如果down机，数据将会丢失。如：Twitter的Storm中使用ZeroMQ作为数据流的传输。

ZeroMQ套接字是与传输层无关的：ZeroMQ套接字对所有传输层协议定义了统一的API接口。默认支持进程内(inproc) ，进程间(IPC) ，多播，TCP协议，在不同的协议之间切换只要简单的改变连接字符串的前缀。可以在任何时候以最小的代价从进程间的本地通信切换到分布式下的TCP通信。ZeroMQ在背后处理连接建立，断开和重连逻辑。

特性：

二、主要消息中间件的比较

⑨ 使用Python解析nginx日志文件

本文使用Python2.7解析nginx日志文件，并把nginx的时间转化为时间戳（1970纪元后经过的浮点秒数），并存放到特定文件中。

Nginx的http日志格式：

示例如下：

这里使用Python的glob模块来获取所有日志文件。日志文件每天0时进行备份，命名为nginx.log.YYMMDD。

模块linecache允许从任何文件里得到任何的行，并且使用缓存进行优化，常见的情况是从单个文件读取多行。

使用python的re模块解析每一条日志。

其中body_bytes捕获非空字符串，而不是数字，因为日志里可能存在该字段值为“-”，即没有请求体。

date、method、request等参数可以采用以下方式进行提取。

使用python的time模块把时间转为时间戳。

产生文件time.log，内容如下：

⑩ 大型的PHP应用，通常使用什么应用做消息队列

一、消息队列概述x0dx0a消息队列中间件是分布式系统中重要的组件，主要解决应用耦合，异步消息，流量削锋等问题。实现高性能，高可用，可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。x0dx0a目前在生产环境，使用较多的消息队列有ActiveMQ，RabbitMQ，ZeroMQ，Kafka，MetaMQ，RocketMQ等。x0dx0a二、消息队列应用场景x0dx0a以下介绍消息队列在实际应用中常用的使用场景。异步处理，应用解耦，流量削锋和消息通讯四个场景。x0dx0a2.1异步处理x0dx0a场景说明：用户注册后，需要发注册邮件和注册短信。传统的做法有两种1.串行的方式；2.并行方式。x0dx0a（1）串行方式：将注册信息写入数据库成功后，发送注册邮件，再发送注册短信。以上三个任务全部完成后，返回给客户端。（架构KKQ：466097527，欢迎加入）x0dx0a（2）并行方式：将注册信息写入数据库成功后，发送注册邮件的同时，发送注册短信。以上三个任务完成后，返回给客户端。与串行的差别是，并行的方式可以提高处理的时间。x0dx0a假设三个业务节点每个使用50毫秒钟，不考虑网络等其他开销，则串行方式的时间是150毫秒，并行的时间可能是100毫秒。x0dx0a因为CPU在单位时间内处理的请求数是一定的，假设CPU1秒内吞吐量是100次。则串行方式1秒内CPU可处理的请求量是7次（1000/150）。并行方式处理的请求量是10次（1000/100）。x0dx0a小结：如以上案例描述，传统的方式系统的性能（并发量，吞吐量，响应时间）会有瓶颈。如何解决这个问题呢？x0dx0a引入消息队列，将不是必须的业务逻辑，异步处理。改造后的架构如下：x0dx0a按照以上约定，用户的响应时间相当于是注册信息写入数据库的时间，也就是50毫秒。注册邮件，发送短信写入消息队列后，直接返回，因此写入消息队列的速度很快，基本可以忽略，因此用户的响应时间可能是50毫秒。因此架构改变后，系统的吞吐量提高到每秒20 QPS。比串行提高了3倍，比并行提高了两倍。x0dx0a2.2应用解耦x0dx0a场景说明：用户下单后，订单系统需要通知库存系统。传统的做法是，订单系统调用库存系统的接口。如下图：x0dx0a传统模式的缺点：x0dx0a1）假如库存系统无法访问，则订单减库存将失败，从而导致订单失败；x0dx0a2）订单系统与库存系统耦合；x0dx0a如何解决以上问题呢？引入应用消息队列后的方案，如下图：x0dx0a订单系统：用户下单后，订单系统完成持久化处理，将消息写入消息队列，返回用户订单下单成功。x0dx0a库存系统：订阅下单的消息，采用拉/推的方式，获取下单信息，库存系统根据下单信息，进行库存操作。x0dx0a假如：在下单时库存系统不能正常使用。也不影响正常下单，因为下单后，订单系统写入消息队列就不再关心其他的后续操作了。实现订单系统与库存系统的应用解耦。x0dx0a2.3流量削锋x0dx0a流量削锋也是消息队列中的常用场景，一般在秒杀或团抢活动中使用广泛。x0dx0a应用场景：秒杀活动，一般会因为流量过大，导致流量暴增，应用挂掉。为解决这个问题，一般需要在应用前端加入消息队列。x0dx0a可以控制活动的人数；x0dx0a可以缓解短时间内高流量压垮应用；x0dx0a用户的请求，服务器接收后，首先写入消息队列。假如消息队列长度超过最大数量，则直接抛弃用户请求或跳转到错误页面；x0dx0a秒杀业务根据消息队列中的请求信息，再做后续处理。x0dx0a2.4日志处理x0dx0a日志处理是指将消息队列用在日志处理中，比如Kafka的应用，解决大量日志传输的问题。架构简化如下：x0dx0a日志采集客户端，负责日志数据采集，定时写受写入Kafka队列；x0dx0aKafka消息队列，负责日志数据的接收，存储和转发；x0dx0a日志处理应用：订阅并消费kafka队列中的日志数据；x0dx0a以下是新浪kafka日志处理应用案例：x0dx0a(1)Kafka：接收用户日志的消息队列。x0dx0a(2)Logstash：做日志解析，统一成JSON输出给Elasticsearch。x0dx0a(3)Elasticsearch：实时日志分析服务的核心技术，一个schemaless，实时的数据存储服务，通过index组织数据，兼具强大的搜索和统计功能。x0dx0a(4)Kibana：基于Elasticsearch的数据可视化组件，超强的数据可视化能力是众多公司选择ELK stack的重要原因。x0dx0a2.5消息通讯x0dx0a消息通讯是指，消息队列一般都内置了高效的通信机制，因此也可以用在纯的消息通讯。比如实现点对点消息队列，或者聊天室等。x0dx0a点对点通讯：x0dx0a客户端A和客户端B使用同一队列，进行消息通讯。x0dx0a聊天室通讯：x0dx0a客户端A，客户端B，客户端N订阅同一主题，进行消息发布和接收。实现类似聊天室效果。x0dx0a以上实际是消息队列的两种消息模式，点对点或发布订阅模式。模型为示意图，供参考。x0dx0a三、消息中间件示例x0dx0a3.1电商系统x0dx0a消息队列采用高可用，可持久化的消息中间件。比如Active MQ，Rabbit MQ，Rocket Mq。（1）应用将主干逻辑处理完成后，写入消息队列。消息发送是否成功可以开启消息的确认模式。（消息队列返回消息接收成功状态后，应用再返回，这样保障消息的完整性）x0dx0a（2）扩展流程（发短信，配送处理）订阅队列消息。采用推或拉的方式获取消息并处理。x0dx0a（3）消息将应用解耦的同时，带来了数据一致性问题，可以采用最终一致性方式解决。比如主数据写入数据库，扩展应用根据消息队列，并结合数据库方式实现基于消息队列的后续处理。x0dx0a3.2日志收集系统x0dx0a分为Zookeeper注册中心，日志收集客户端，Kafka集群和Storm集群（OtherApp）四部分组成。x0dx0aZookeeper注册中心，提出负载均衡和地址查找服务；x0dx0a日志收集客户端，用于采集应用系统的日志，并将数据推送到kafka队列；x0dx0a四、JMS消息服务x0dx0a讲消息队列就不得不提JMS 。JMS（Java Message Service,Java消息服务）API是一个消息服务的标准/规范，允许应用程序组件基于JavaEE平台创建、发送、接收和读取消息。它使分布式通信耦合度更低，消息服务更加可靠以及异步性。x0dx0a在EJB架构中，有消息bean可以无缝的与JM消息服务集成。在J2EE架构模式中，有消息服务者模式，用于实现消息与应用直接的解耦。x0dx0a4.1消息模型x0dx0a在JMS标准中，有两种消息模型P2P（Point to Point）,Publish/Subscribe(Pub/Sub)。x0dx0a4.1.1 P2P模式x0dx0aP2P模式包含三个角色：消息队列（Queue），发送者(Sender)，接收者(Receiver)。每个消息都被发送到一个特定的队列，接收者从队列中获取消息。队列保留着消息，直到他们被消费或超时。x0dx0aP2P的特点x0dx0a每个消息只有一个消费者（Consumer）(即一旦被消费，消息就不再在消息队列中)x0dx0a发送者和接收者之间在时间上没有依赖性，也就是说当发送者发送了消息之后，不管接收者有没有正在运行，它不会影响到消息被发送到队列x0dx0a接收者在成功接收消息之后需向队列应答成功x0dx0a如果希望发送的每个消息都会被成功处理的话，那么需要P2P模式。（架构KKQ：466097527，欢迎加入）x0dx0a4.1.2 Pub/sub模式x0dx0a包含三个角色主题（Topic），发布者（Publisher），订阅者（Subscriber）。多个发布者将消息发送到Topic,系统将这些消息传递给多个订阅者。x0dx0aPub/Sub的特点x0dx0a每个消息可以有多个消费者x0dx0a发布者和订阅者之间有时间上的依赖性。针对某个主题（Topic）的订阅者，它必须创建一个订阅者之后，才能消费发布者的消息。x0dx0a为了消费消息，订阅者必须保持运行的状态。x0dx0a为了缓和这样严格的时间相关性，JMS允许订阅者创建一个可持久化的订阅。这样，即使订阅者没有被激活（运行），它也能接收到发布者的消息。x0dx0a如果希望发送的消息可以不被做任何处理、或者只被一个消息者处理、或者可以被多个消费者处理的话，那么可以采用Pub/Sub模型。x0dx0a4.2消息消费x0dx0a在JMS中，消息的产生和消费都是异步的。对于消费来说，JMS的消息者可以通过两种方式来消费消息。x0dx0a（1）同步x0dx0a订阅者或接收者通过receive方法来接收消息，receive方法在接收到消息之前（或超时之前）将一直阻塞；x0dx0a（2）异步x0dx0a订阅者或接收者可以注册为一个消息监听器。当消息到达之后，系统自动调用监听器的onMessage方法。x0dx0aJNDI：Java命名和目录接口,是一种标准的Java命名系统接口。可以在网络上查找和访问服务。通过指定一个资源名称，该名称对应于数据库或命名服务中的一个记录，同时返回资源连接建立所必须的信息。x0dx0aJNDI在JMS中起到查找和访问发送目标或消息来源的作用。（架构KKQ：466097527，欢迎加入）x0dx0a4.3JMS编程模型x0dx0a(1) ConnectionFactoryx0dx0a创建Connection对象的工厂，针对两种不同的jms消息模型，分别有QueueConnectionFactory和TopicConnectionFactory两种。可以通过JNDI来查找ConnectionFactory对象。x0dx0a(2) Destinationx0dx0aDestination的意思是消息生产者的消息发送目标或者说消息消费者的消息来源。对于消息生产者来说，它的Destination是某个队列（Queue）或某个主题（Topic）;对于消息消费者来说，它的Destination也是某个队列或主题（即消息来源）。x0dx0a所以，Destination实际上就是两种类型的对象：Queue、Topic可以通过JNDI来查找Destination。x0dx0a(3) Connectionx0dx0aConnection表示在客户端和JMS系统之间建立的链接（对TCP/IP socket的包装）。Connection可以产生一个或多个Session。跟ConnectionFactory一样，Connection也有两种类型：QueueConnection和TopicConnection。x0dx0a(4) Sessionx0dx0aSession是操作消息的接口。可以通过session创建生产者、消费者、消息等。Session提供了事务的功能。当需要使用session发送/接收多个消息时，可以将这些发送/接收动作放到一个事务中。同样，也分QueueSession和TopicSession。x0dx0a(5) 消息的生产者x0dx0a消息生产者由Session创建，并用于将消息发送到Destination。同样，消息生产者分两种类型：QueueSender和TopicPublisher。可以调用消息生产者的方法（send或publish方法）发送消息。x0dx0a(6) 消息消费者x0dx0a消息消费者由Session创建，用于接收被发送到Destination的消息。两种类型：QueueReceiver和TopicSubscriber。可分别通过session的createReceiver(Queue)或createSubscriber(Topic)来创建。当然，也可以session的creatDurableSubscriber方法来创建持久化的订阅者。x0dx0a(7) MessageListenerx0dx0a消息监听器。如果注册了消息监听器，一旦消息到达，将自动调用监听器的onMessage方法。EJB中的MDB（Message-Driven Bean）就是一种MessageListener。x0dx0a深入学习JMS对掌握JAVA架构，EJB架构有很好的帮助，消息中间件也是大型分布式系统必须的组件。本次分享主要做全局性介绍，具体的深入需要大家学习，实践，总结，领会。x0dx0a五、常用消息队列x0dx0a一般商用的容器，比如WebLogic，JBoss，都支持JMS标准，开发上很方便。但免费的比如Tomcat，Jetty等则需要使用第三方的消息中间件。本部分内容介绍常用的消息中间件（Active MQ,Rabbit MQ，Zero MQ,Kafka）以及他们的特点。x0dx0a5.1 ActiveMQx0dx0aActiveMQ 是Apache出品，最流行的，能力强劲的开源消息总线。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现，尽管JMS规范出台已经是很久的事情了，但是JMS在当今的J2EE应用中间仍然扮演着特殊的地位。x0dx0aActiveMQ特性如下：x0dx0a⒈ 多种语言和协议编写客户端。语言: Java,C,C++,C#,Ruby,Perl,Python,PHP。应用协议： OpenWire,Stomp REST,WS Notification,XMPP,AMQPx0dx0a⒉ 完全支持JMS1.1和J2EE 1.4规范（持久化，XA消息，事务)x0dx0a⒊ 对spring的支持，ActiveMQ可以很容易内嵌到使用Spring的系统里面去，而且也支持Spring2.0的特性x0dx0a⒋ 通过了常见J2EE服务器（如 Geronimo,JBoss 4,GlassFish,WebLogic)的测试，其中通过JCA 1.5 resource adaptors的配置，可以让ActiveMQ可以自动的部署到任何兼容J2EE 1.4 商业服务器上x0dx0a⒌ 支持多种传送协议：in-VM,TCP,SSL,NIO,UDP,JGroups,JXTAx0dx0a⒍ 支持通过JDBC和journal提供高速的消息持久化x0dx0a⒎ 从设计上保证了高性能的集群，客户端-服务器，点对点x0dx0a⒏ 支持Ajaxx0dx0a⒐ 支持与Axis的整合x0dx0a⒑ 可以很容易得调用内嵌JMS provider，进行测试x0dx0a5.2 RabbitMQx0dx0aRabbitMQ是流行的开源消息队列系统，用erlang语言开发。RabbitMQ是AMQP（高级消息队列协议）的标准实现。支持多种客户端，如：Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX，持久化。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。x0dx0a几个重要概念：x0dx0aBroker：简单来说就是消息队列服务器实体。x0dx0aExchange：消息交换机，它指定消息按什么规则，路由到哪个队列。x0dx0aQueue：消息队列载体，每个消息都会被投入到一个或多个队列。x0dx0aBinding：绑定，它的作用就是把exchange和queue按照路由规则绑定起来。x0dx0aRouting Key：路由关键字，exchange根据这个关键字进行消息投递。x0dx0avhost：虚拟主机，一个broker里可以开设多个vhost，用作不同用户的权限分离。x0dx0aprocer：消息生产者，就是投递消息的程序。x0dx0aconsumer：消息消费者，就是接受消息的程序。x0dx0achannel：消息通道，在客户端的每个连接里，可建立多个channel，每个channel代表一个会话任务。x0dx0a消息队列的使用过程，如下：x0dx0a（1）客户端连接到消息队列服务器，打开一个channel。x0dx0a（2）客户端声明一个exchange，并设置相关属性。x0dx0a（3）客户端声明一个queue，并设置相关属性。x0dx0a（4）客户端使用routing key，在exchange和queue之间建立好绑定关系。x0dx0a（5）客户端投递消息到exchange。x0dx0aexchange接收到消息后，就根据消息的key和已经设置的binding，进行消息路由，将消息投递到一个或多个队列里。x0dx0a5.3 ZeroMQx0dx0a号称史上最快的消息队列，它实际类似于Socket的一系列接口，他跟Socket的区别是：普通的socket是端到端的（1:1的关系），而ZMQ却是可以N：M 的关系，人们对BSD套接字的了解较多的是点对点的连接，点对点连接需要显式地建立连接、销毁连接、选择协议（TCP/UDP）和处理错误等，而ZMQ屏蔽了这些细节，让你的网络编程更为简单。ZMQ用于node与node间的通信，node可以是主机或者是进程。x0dx0a引用官方的说法： “ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层，像框架一样的一个socket library，他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库，可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分，之后进入Linux内核”。现在还未看到它们的成功。但是，它无疑是极具前景的、并且是人们更加需要的“传统”BSD套接字之上的一层封装。ZMQ让编写高性能网络应用程序极为简单和有趣。”x0dx0a特点是：x0dx0a高性能，非持久化；x0dx0a跨平台：支持Linux、Windows、OS X等。x0dx0a多语言支持； C、C++、Java、.NET、Python等30多种开发语言。x0dx0a可单独部署或集成到应用中使用；x0dx0a可作为Socket通信库使用。x0dx0a与RabbitMQ相比，ZMQ并不像是一个传统意义上的消息队列服务器，事实上，它也根本不是一个服务器，更像一个底层的网络通讯库，在Socket API之上做了一层封装，将网络通讯、进程通讯和线程通讯抽象为统一的API接口。支持“Request-Reply “，”Publisher-Subscriber“，”Parallel Pipeline”三种基本模型和扩展模型。x0dx0aZeroMQ高性能设计要点：x0dx0a1、无锁的队列模型x0dx0a对于跨线程间的交互（用户端和session）之间的数据交换通道pipe，采用无锁的队列算法CAS；在pipe两端注册有异步事件，在读或者写消息到pipe的时，会自动触发读写事件。x0dx0a2、批量处理的算法x0dx0a对于传统的消息处理，每个消息在发送和接收的时候，都需要系统的调用，这样对于大量的消息，系统的开销比较大，zeroMQ对于批量的消息，进行了适应性的优化，可以批量的接收和发送消息。x0dx0a3、多核下的线程绑定，无须CPU切换x0dx0a区别于传统的多线程并发模式，信号量或者临界区， zeroMQ充分利用多核的优势，每个核绑定运行一个工作者线程，避免多线程之间的CPU切换开销。x0dx0a5.4 Kafkax0dx0aKafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。x0dx0aKafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：x0dx0a通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。（文件追加的方式写入数据，过期的数据定期删除）x0dx0a高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。x0dx0a支持通过Kafka服务器和消费机集群来分区消息。x0dx0a支持Hadoop并行数据加载。x0dx0aKafka相关概念x0dx0aBrokerx0dx0aKafka集群包含一个或多个服务器，这种服务器被称为broker[5]x0dx0aTopicx0dx0a每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）x0dx0aPartitionx0dx0aParition是物理上的概念，每个Topic包含一个或多个Partition.x0dx0aProcerx0dx0a负责发布消息到Kafka brokerx0dx0aConsumerx0dx0a消息消费者，向Kafka broker读取消息的客户端。x0dx0aConsumer Groupx0dx0a每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）。x0dx0a一般应用在大数据日志处理或对实时性（少量延迟），可靠性（少量丢数据）要求稍低的场景使用。

导航:首页 > 编程语言 > python实时日志分析

python实时日志分析

与python实时日志分析相关的资料