1. 多进程环境python logging打印日志混乱问题
解决办法如下:
多么痛的领悟,滑腔困扰了这么久的问题其实就是一个参数配置错了。
fileMode:表示日志山让侍文件的打开方式。w-直接写,使用这个配置当系统重启的时候日志会清空,一个进程打开后其他进程是无法使用的;a-尾部逗吵追加,大家都可以打开往文件结尾进行追加写入。
本人主语言是java,转到python后日志这块踩了几个坑。再说说另外一个坑,就是异常堆栈的打印问题,在java中logger是可以使用error直接打印出来的。在python中error跟其他日志记录方法没太大差别,是无法打印异常堆栈的,打印堆栈请使用 logger.exception("异常说明", e) 。
2. python之多线程原理
并发:逻辑上具备同时处理多个任务的能力。
并行:物理上在同一时刻执行多个并发任务。
举例:开个QQ,开了一个进程,开了微信,开了一个进程。在QQ这个进程里面,传输文字开一个线程、传输语音开了一个线程、弹出对话框又开了一个线程。
总结:开一个软件,相当于开了一个进程。在这个软件运行的过程里,多个工作同时运转,完成了QQ的运行,那么这个多个工作分别有多个线程。
线程和进程之间的区别:
进程在python中的使用,对模块threading进行操作,调用的这个三方库。可以通过 help(threading) 了解其中的方法、变量使用情况。也可以使用 dir(threading) 查看目录结构。
current_thread_num = threading.active_count() # 返回正在运行的线程数量
run_thread_len = len(threading.enumerate()) # 返回正在运行的线程数量
run_thread_list = threading.enumerate() # 返回当前运行线程的列表
t1=threading.Thread(target=dance) #创建两个子线程,参数传递为函数名
t1.setDaemon(True) # 设置守护进程,守护进程:主线程结束时自动退出子线程。
t1.start() # 启动子线程
t1.join() # 等待进程结束 exit()`# 主线程退出,t1子线程设置了守护进程,会自动退出。其他子线程会继续执行。
3. python如何使用多线程抓取多个log
由于python是一种解释性脚本语言,python的多线程在运行过程中始终存在全局线程锁。简单的来说就是在实际的运行过程中,python只能利用一个线程,因此python的多线程并不达到C语言多线程的性能。可以使用多进程来代替多线程,但需要注意的是多进程最好不要涉及到例如文件操作的频繁操作IO的功能。
4. 日志文件太大,python怎么分割文件,多线程操作
python的多线程为伪多线程,多线程并不能提高文件IO的速度,在读取文件时使用直接读取 for line in open('文件名', 'r') 效率最高,因为此方式为直接读取,不像其它方式要把文件全部加载到内存再读取,所以效率最高。分割时文件时,提前计算好行数,把读取的每固定数量的行数存入新文件,直接读取完成,最后删除旧文件,即可实现文件分割。
示意代码:
line_count=0
index=0
fw=open('part'+str(index)+'.log','w')
forlineinopen('filename.log','r'):
fw.write(line)
line_count+=1
#假设每10000行写一个文件
ifline_count>10000:
fw.close()
index+=1
fw=open('part'+str(index)+'.log','w')
fw.close()
5. python - 日志记录模块(logging)的二次封装
上篇文章 对logging做了基本介绍,我们可以使用logging来做日志的简单记录。但实际项目应用时,我们一般会根据自身需要对其做二次封装(loggingV2),然后在其他python文件中, 先import申明后直接调用。
废话不多说,下面给几个二次封装的简单示例:
示例一:
loggingV2.py - 封装
logMain.py - 应用
示例二:
对上述示例进行 模块化封装 ,如下log.py
则任何声明了log模块的python文件都可以调用logging日志系统,如下logMain.py
示例三:
对上述示例进行 定制化封装 ,如下myLog.py
需求:
1)同时实现终端显示与日志文件保存
2)日志文件名除日期外,增加显示时间,精确到秒
3)日志输出级别可配置
4)日志保存路径与文件名可配置
5)日志跨天(或者小时/分钟),另生成新文件保存
改写logMain.py,如下:
示例四:
对上述示例进行 异步线程封装 ,如下myThreadLog.py
需求:
1)独立线程处理日志,不影响主程序性能
2)使用队列异步处理日志记录
继续改写logMain.py,如下:
注意 - 线程相关操作函数(如下):
1.threading.Thread() — 创建线程并初始化线程,可以为线程传递参数
2.threading.enumerate() — 返回一个包含正在运行的线程的list
3.threading.activeCount(): 返回正在运行的线程数量,与len(threading.enumerate())有相同的结果
4.Thread.start() — 启动线程
5.Thread.join() — 阻塞函数,一直等到线程结束
6.Thread.isAlive() — 返回线程活动状态
7.Thread.setName() — 设置线程名
8.Thread.getName() — 获取线程名
9.Thread.setDaemon() — 设置为后台线程,这里默认是False,设置为True之后则主线程不会再等待子线程结束才结束,而是主线程结束意味程序退出,子线程也立即结束,注意调用时必须设置在start()之前;
10.除了以上常用函数,线程还经常与互斥锁Lock/事件Event/信号量Condition/队列Queue等函数配合使用
6. python 多线程logger问题
因为logging是threadsafe的,但不是process-safe(应该没有这个词儿,只是为了便于理解)的。这段代码就是多个进程共同操作一个日志文件。这种情况下,logging的行为就很难说了。
我测试了一下,日志中大概几百行。而且,可以看到一些顺序错乱现象:
Fri, 08 Aug 2014 01:19:38 logging_in_multithread.py[line:40] theadWorking ERROR 2
FFri, 08 Aug 2014 01:19:36 logging_in_multithread.py[line:40] theadWorking ERROR 11(注意这里的FFri)
把代码这样改:
fornuminrange(processNum):
p=Process(target=processWorking,args=('2',))
processs.append(p)
p.start()
p.join()
还有其他方法,比如:为logging实现一个FileHandler,以使logging在multiple process的环境下也能正常工作。这是我从网上了解到的做法,自己还没实践过。
Python Manual中logging Cookbook中有这么一段话:
Logging to a single file from multiple processes
Although logging is thread-safe, and logging to a single file from multiple threads in a single process is supported, logging to a single file from multiple processes is not supported, because there is no standard way to serialize access to a single file across multiple processes in Python. If you need to log to a single file from multiple processes, one way of doing this is to have all the processes log to a SocketHandler, and have a separate process which implements a socket server which reads from the socket and logs to file. (If you prefer, you can dedicate one thread in one of the existing processes to perform this function.)
这段话中也提出了另外一种解决方案。
7. python中更优雅的记录日志
在以往我们使用日志,更多的是使用 python 自带的 logging 模块态大迅,它可以设置错误等级、输出方式等。
但使用方式相对比较复杂,想要更好的使用需要如 log4net 一样单独配置,这在 python 中感觉不是很优雅。
下面介绍一个 python 库: loguru 。 guru 是印度语中大师的意思, loguru 直译就是“日志大师”。
如图 logging 一样, loguru 也有定义日志等级。不同的日志等级,输出效果也不一样(默认的等级由低到高是 DEBUG 、 INFO 、 WARNING 、 ERROR 、 CRITICAL ,也可以自己使用 level 函数定义)。
类似 logging 中的 logger.addHandler ,loguru统一使用 add 函数来管理格式、文件输出、过滤等操作,它提供了许多参数来实现 logger.addHandler 中的配置更加简单方便。
其中 sink 是最重要的参数,可以传入不同的数据类型。传入文件路径、文件句柄、 sys.stderr 、甚至 logging 模块的 Handler 如 FileHandler 、 StreamHandler 等,这样就可以快速实现自定义的 Handler 配置。
通过给 remove 方法传递 add 方法返回的对象, 可以帆此删除 add 方仿槐法添加的 sink ,这里的 remove 并不是删除 test2.log 文件,而是停止向该文件输出日志,需要需要继续记录日志则需要重新 add 日志文件。
用 rotation 、 retention 、 compression 进行日志窗口、更新、压缩管理。
支持控制台输出添加颜色, 除了基础色, loguru 甚至允许16进制、RGB格式的颜色值和加粗、下划线等样式。
使用装饰器 @logger.catch 可以和 logging 一样使用 logger.exception 函数来记录异常信息。
使用 exception 方法输出的异常信息包含堆栈信息和当前变量的值,方便问题定位。
使用 serialize 可以将日志转换为 JSON 格式, enqueue 可以保证多线程、多进程安全。
修改时间格式。
8. python 多线程中 日志按天分割
python 的 logging 模块, 在多线程应用中, logging.hanlders.TimedRotatingFileHandler 不能清洞前正常按日颤手期分割。
解决办法为:重写FileHandler类,用于多线程中日志按天分割。
之后,Logger定义日志的各种参数(格式等):
实例化答清日志:
9. python之多线程
进程的概念:以一个整体的形式暴露给操作系统管理,里面包含各种资源的调用。 对各种资源管理的集合就可以称为进程。
线程的概念:是操作系统能够进行运算调度的最小单位。本质上就是一串指令的集合。
进程和线程的区别:
1、线程共享内存空间,进程有独立的内存空间。
2、线程启动速度快,进程启动速度慢。注意:二者的运行速度是无法比较的。
3、线程是执行的指令集,进程是资源的集合
4、两个子进程之间数据不共享,完全独立。同一个进程下的线程共享同一份数据。
5、创建新的线程很简单,创建新的进程需要对他的父进程进行一次克隆。
6、一个线程可以操作(控制)同一进程里的其他线程,但是进程只能操作子进程
7、同一个进程的线程可以直接交流,两个进程想要通信,必须通过一个中间代理来实现。
8、对于线程的修改,可能会影响到其他线程的行为。但是对于父进程的修改不会影响到子进程。
第一个程序,使用循环来创建线程,但是这个程序中一共有51个线程,我们创建了50个线程,但是还有一个程序本身的线程,是主线程。这51个线程是并行的。注意:这个程序中是主线程启动了子线程。
相比上个程序,这个程序多了一步计算时间,但是我们观察结果会发现,程序显示的执行时间只有0.007秒,这是因为最后一个print函数它存在于主线程,而整个程序主线程和所有子线程是并行的,那么可想而知,在子线程还没有执行完毕的时候print函数就已经执行了,总的来说,这个时间只是执行了一个线程也就是主线程所用的时间。
接下来这个程序,吸取了上面这个程序的缺点,创建了一个列表,把所有的线程实例都存进去,然后使用一个for循环依次对线程实例调用join方法,这样就可以使得主线程等待所创建的所有子线程执行完毕才能往下走。 注意实验结果:和两个线程的结果都是两秒多一点
注意观察实验结果,并没有执行打印task has done,并且程序执行时间极其短。
这是因为在主线程启动子线程前把子线程设置为守护线程。
只要主线程执行完毕,不管子线程是否执行完毕,就结束。但是会等待非守护线程执行完毕
主线程退出,守护线程全部强制退出。皇帝死了,仆人也跟着殉葬
应用的场景 : socket-server
注意:gil只是为了减低程序开发复杂度。但是在2.几的版本上,需要加用户态的锁(gil的缺陷)而在3点几的版本上,加锁不加锁都一样。
下面这个程序是一个典型的生产者消费者模型。
生产者消费者模型是经典的在开发架构中使用的模型
运维中的集群就是生产者消费者模型,生活中很多都是
那么,多线程的使用场景是什么?
python中的多线程实质上是对上下文的不断切换,可以说是假的多线程。而我们知道,io操作不占用cpu,计算占用cpu,那么python的多线程适合io操作密集的任务,比如socket-server,那么cpu密集型的任务,python怎么处理?python可以折中的利用计算机的多核:启动八个进程,每个进程有一个线程。这样就可以利用多进程解决多核问题。