1. 2022年python技术类面试题总结(面试题+答案解析)
这是一位有着五年 Python 经验的好友最近对 Python 岗位面试后的一篇经验总结,从 Python 就业方向到 Python 面试题。
Python 就业方向 :
下面是 Python 面试知识点,总结了华为、阿里巴巴等互联网公司 Python 常问面试题。每道题都提供参考答案,希望能够帮助你在求职面试中脱颖而出,找到一份高薪工作。
这些面试题分为 Python 基础和 Python高级,内容包含: 基础语法、文件操作、模块与包、数据类型、元类、内存管理与垃圾回收机制以及 Python 函数 等知识点。
(一) Python 基础语法
(二) 文件操作
(三) 模块与包
(四) 数据类型
(五)企业面试题
(一) 元类
(二)内存管理与垃圾回收机制
(三)函数
(四) 面向对象
由于篇幅有限,这份 Python 面试宝典已经被整理成了PDF文档,有需要 Python 面试宝典全套完整文档(面试题+答案解析)的可以 免费领取!
2. 求一份鱼C工作室,python 课后测试题及答案!!
1,使用getopt。getopt()优化当前的功能函数:
[html]
#!/usr/bin/python
# -*- coding: utf-8 -*-
#coding=utf-8
import os,sys
import getopt
print sys.argv
CDROW='/home/zhouqian/test'
def cdWalker(CDROW,cdfile):
result=[]
for root,dirs,files in os.walk(CDROW):
result.append("%s %s %s" %(root,dirs,files))
print root
open(cdfile,'w').write('\n'.join(result))
def usage():
print '''pycdc 使用方式:
python cdays-3-exercise-1.py -d cdc -k 中国火
#检索cdc中有没有中国火字样的目录,
'''
try:
opts,args=getopt.getopt(sys.argv[1:],'hd:e:k:')
except getopt.GetoptError:
usage()
sys.exit()
if len(opts)==0:
usage()
sys.exit()
c_path=''
name=''
for opt,arg in opts:
if opt in('-h','--help'):
usage()
sys.exit()
elif opt=='-e':
if os.path.exists(arg):#判断目标路径是否存在
# cdWalker(CDROW,arg)
print "记录光盘的位置是 %s" %arg
else:
print "不存在这样的目录"
elif opt=='-d':
c_path=arg
print c_path
cdWalker(CDROW,c_path)
elif opt=='-k':
if not c_path:
usage()
sys.exit()
else:
name=arg
for root,dirs,files in os.walk(c_path):
if root=='%s' %name:
print '您要找的文件在%s' %dirs
这是第一个题,大概做了2个小时吧,各种纠结啊,后面两个正在做。中间遇到的问题总结:
函式的利用,os.path.walk,python字符集,getopt模块的使用学习,os.path.exists()的利用,列表的对应关系等等
习题2 :关键词-----》序列号问题:
[html]
#!/usr/bin/python
#coding=utf-8
import sys
def collect(file):
result={}
for line in file.readlines():
left,right=line.split()
if result.has_key(right):
result[right].append(left)
else:
result[right]=[left]
return result
if __name__=="__main__":
print sys.argv
if len(sys.argv)==1:
print 'usage:\tpython value_keys.py test.txt'
else:
result=collect(open(sys.argv[1],'r'))
for (right,left) in result.items():
print "%d %s => %s" %(len(left),right,left)
结果显示:
[html]
root@zhou:/home/zhouqian/python# py value_keys.py test.txt
ssss
2 key3 => ['6', '33']
3 key2 => ['1', '2', '45']
3 key1 => ['4', '5', '13']
遇到的问题总结:
split的用法:line.split()就是分开出左右两边的值,在默认的情况下是以一个空格或者多个空格为分割符的,
has_key()的用法:是查看字典数据类型中有没有这么一个关键字。上面可知result={}是初始化了一个字典的数据类型。
字典的一些用法:怎么定义,怎么赋值:result[right]=[left]或者result[right]=left,遍历字典中所用
项,result.items(),遍历字典的key值:result.keys(),遍历字典的value值:result.values()
[html]
>>> dict={'chen':25,'zhou':24,'xiao':35}
>>> dict.values()
[25, 35, 24]
>>> dict.keys()
['chen', 'xiao', 'zhou']
>>> dict.items()
[('chen', 25), ('xiao', 35), ('zhou', 24)]
3. Python爬虫期末试题(编程题答案)
from seleniumimport webdriver
import time
from selenium.webdriverimport ActionChains
driver = webdriver.Chrome()
driver.get("https://accounts.douban.com/passport/login")
# 点击密码登录山中销
driver.find_element_by_class_name('account-tab-account').click()
# 定位账户 # 输入内容
driver.find_element_by_id('username').send_keys('2331566038')
driver.find_element_by_id('password').send_keys('*********')
# 点击登录
driver.find_element_by_link_text('登录豆瓣').click()
# 进入内嵌滑动验证页面
iframe = driver.find_element_by_id('tcaptcha_iframe')
driver.switch_to_frame(iframe)
element = driver.find_element_by_xpath('//*[@id="tcaptcha_drag_thumb"]')
ActionChains(driver).click_and_hold(on_element=element).perform()
ActionChains(driver).move_to_element_with_offset(to_element=element,xoffset=180,yoffset=0).perform()
driver.save_screenshot('豆逗游瓣.png')
time.sleep(5)
driver.quit()
import urllib.request
import urllib.parse
url ="http://www..com/s"
word = {"wd":"浙江大学培旅"}
word = urllib.parse.urlencode(word)
new_url = url +"?" + word
header = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"
}
resquest = urllib.request.Request(new_url,headers = header,)
response = urllib.request.urlopen(resquest)
html = response.read().decode('utf-8')
print(html)
4. python面试题总结1-内存管理机制
(1).引用计数
(2). 垃圾回收
(3). 内存池机制
在python中每创建一个对象,对应的会有一个引用计数,当发生赋值操作如a=b,对应的b的引用计数会自动加1,当引用的对象被清除或者函数结束时,引用计数会自动减1。
在python中使用引用计数,标记清楚,分代回收三种方式进行垃圾回收。
其中,引用计数当对象的引用计数归0时,对象会自动被清除。标记清除机制是首先遍历所有对象,如果对象可达,就说明有变量引用它,则标记其为可达的。如果不可达,则对其进行清除。分代回收是当对象创建时被标记为第0代,经过一次垃圾回收之后,余下的对象被标记为第1代,最高为第2代。其原理是,对象的生存期越长,月可能不是垃越。
ython语言虽然提供了对内存的垃圾收集机制,但实际上它将不用的内存放到内存池而不是返回给操作系统,所以就有了以下:
1 Pymalloc机制;这个主要是为了加速Python的执行效率,Python引入了一个内存池机制,用于管理,为了对小块内存的申请和释放。
2 Python中所有小于256个字节的对象都是依靠pymalloc分配器来实现的,而稍大的对象用的则是系统的malloc。
3 对于Python对象,比如整数、浮点数和List这些,都有自己独立的内存池,对象间并不共享他们的内存池。换句话说就是,假设你分配并且释放了大量的整数,那么用于缓存这些整数的内存就不能再分配给浮点数。
5. Python面试题,线程与进程的区别,Python中如何创建多线程
进程和线程这两个概念属于操作系统,我们经常听说,但是可能很少有人会细究它们的含义。对于工程师而言,两者的定义和区别还是很有必要了解清楚的。
首先说进程,进程可以看成是 CPU执行的具体的任务 。在操作系统当中,由于CPU的运行速度非常快,要比计算机当中的其他设备要快得多。比如内存、磁盘等等,所以如果CPU一次只执行一个任务,那么会导致CPU大量时间在等待这些设备,这样操作效率很低。为了提升计算机的运行效率,把机器的技能尽可能压榨出来,CPU是轮询工作的。也就是说 它一次只执行一个任务,执行一小段碎片时间之后立即切换 ,去执行其他任务。
所以在早期的单核机器的时候,看起来电脑也是并发工作的。我们可以一边听歌一边上网,也不会觉得卡顿。但实际上,这是CPU轮询的结果。在这个例子当中,听歌的软件和上网的软件对于CPU而言都是 独立的进程 。我们可以把进程简单地理解成运行的应用,比如在安卓手机里面,一个app启动的时候就会对应系统中的一个进程。当然这种说法不完全准确, 一个应用也是可以启动多个进程的 。
进程是对应CPU而言的,线程则更多针对的是程序。即使是CPU在执行当前进程的时候,程序运行的任务其实也是有分工的。举个例子,比如听歌软件当中,我们需要显示歌词的字幕,需要播放声音,需要监听用户的行为,比如是否发生了切歌、调节音量等等。所以,我们需要 进一步拆分CPU的工作 ,让它在执行当前进程的时候,继续通过轮询的方式来同时做多件事情。
进程中的任务就是线程,所以从这点上来说, 进程和线程是包含关系 。一个进程当中可以包含多个线程,对于CPU而言,不能直接执行线程,一个线程一定属于一个进程。所以我们知道,CPU进程切换切换的是执行的应用程序或者是软件,而进程内部的线程切换,切换的是软件当中具体的执行任务。
关于进程和线程有一个经典的模型可以说明它们之间的关系,假设CPU是一家工厂,工厂当中有多个车间。不同的车间对应不同的生产任务,有的车间生产汽车轮胎,有的车间生产汽车骨架。但是工厂的电力是有限的,同时只能满足一个厂房的使用。
为了让大家的进度协调,所以工厂需要轮流提供各个车间的供电。 这里的车间对应的就是进程 。
一个车间虽然只生产一种产品,但是其中的工序却不止一个。一个车间可能会有好几条流水线,具体的生产任务其实是流水线完成的,每一条流水线对应一个具体执行的任务。但是同样的, 车间同一时刻也只能执行一条流水线 ,所以我们需要车间在这些流水线之间切换供电,让各个流水线生产进度统一。
这里车间里的 流水线自然对应的就是线程的概念 ,这个模型很好地诠释了CPU、进程和线程之间的关系。实际的原理也的确如此,不过CPU中的情况要比现实中的车间复杂得多。因为对于进程和CPU来说,它们面临的局面都是实时变化的。车间当中的流水线是x个,下一刻可能就成了y个。
了解完了线程和进程的概念之后,对于理解电脑的配置也有帮助。比如我们买电脑,经常会碰到一个术语,就是这个电脑的CPU是某某核某某线程的。比如我当年买的第一台笔记本是4核8线程的,这其实是在说这台电脑的CPU有 4个计算核心 ,但是使用了超线程技术,使得可以把一个物理核心模拟成两个逻辑核心。相当于我们可以用4个核心同时执行8个线程,相当于8个核心同时执行,但其实有4个核心是模拟出来的虚拟核心。
有一个问题是 为什么是4核8线程而不是4核8进程呢 ?因为CPU并不会直接执行进程,而是执行的是进程当中的某一个线程。就好像车间并不能直接生产零件,只有流水线才能生产零件。车间负责的更多是资源的调配,所以教科书里有一句非常经典的话来诠释: 进程是资源分配的最小单元,线程是CPU调度的最小单元 。
启动线程Python当中为我们提供了完善的threading库,通过它,我们可以非常方便地创建线程来执行多线程。
首先,我们引入threading中的Thread,这是一个线程的类,我们可以通过创建一个线程的实例来执行多线程。
from threading import Thread t = Thread(target=func, name='therad', args=(x, y)) t.start()简单解释一下它的用法,我们传入了三个参数,分别是 target,name和args ,从名字上我们就可以猜测出它们的含义。首先是target,它传入的是一个方法,也就是我们希望多线程执行的方法。name是我们为这个新创建的线程起的名字,这个参数可以省略,如果省略的话,系统会为它起一个系统名。当我们执行Python的时候启动的线程名叫MainThread,通过线程的名字我们可以做区分。args是会传递给target这个函数的参数。
我们来举个经典的例子:
import time, threading # 新线程执行的代码: def loop(n): print('thread %s is running...' % threading.current_thread().name) for i in range(n): print('thread %s >>> %s' % (threading.current_thread().name, i)) time.sleep(5) print('thread %s ended.' % threading.current_thread().name) print('thread %s is running...' % threading.current_thread().name) t = threading.Thread(target=loop, name='LoopThread', args=(10, )) t.start() print('thread %s ended.' % threading.current_thread().name)我们创建了一个非常简单的loop函数,用来执行一个循环来打印数字,我们每次打印一个数字之后这个线程会睡眠5秒钟,所以我们看到的结果应该是每过5秒钟屏幕上多出一行数字。
我们在Jupyter里执行一下:
表面上看这个结果没毛病,但是其实有一个问题,什么问题呢? 输出的顺序不太对 ,为什么我们在打印了第一个数字0之后,主线程就结束了呢?另外一个问题是,既然主线程已经结束了, 为什么Python进程没有结束 , 还在向外打印结果呢?
因为线程之间是独立的,对于主线程而言,它在执行了t.start()之后,并 不会停留,而是会一直往下执行一直到结束 。如果我们不希望主线程在这个时候结束,而是阻塞等待子线程运行结束之后再继续运行,我们可以在代码当中加上t.join()这一行来实现这点。
t.start() t.join() print('thread %s ended.' % threading.current_thread().name)join操作可以让主线程在join处挂起等待,直到子线程执行结束之后,再继续往下执行。我们加上了join之后的运行结果是这样的:
这个就是我们预期的样子了,等待子线程执行结束之后再继续。
我们再来看第二个问题,为什么主线程结束的时候,子线程还在继续运行,Python进程没有退出呢?这是因为默认情况下我们创建的都是用户级线程,对于进程而言, 会等待所有用户级线程执行结束之后才退出 。这里就有了一个问题,那假如我们创建了一个线程尝试从一个接口当中获取数据,由于接口一直没有返回,当前进程岂不是会永远等待下去?
这显然是不合理的,所以为了解决这个问题,我们可以把创建出来的线程设置成 守护线程 。
守护线程守护线程即daemon线程,它的英文直译其实是后台驻留程序,所以我们也可以理解成 后台线程 ,这样更方便理解。daemon线程和用户线程级别不同,进程不会主动等待daemon线程的执行, 当所有用户级线程执行结束之后即会退出。进程退出时会kill掉所有守护线程 。
我们传入daemon=True参数来将创建出来的线程设置成后台线程:
t = threading.Thread(target=loop, name='LoopThread', args=(10, ), daemon=True)这样我们再执行看到的结果就是这样了:
这里有一点需要注意,如果你 在jupyter当中运行是看不到这样的结果的 。因为jupyter自身是一个进程,对于jupyter当中的cell而言,它一直是有用户级线程存活的,所以进程不会退出。所以想要看到这样的效果,只能通过命令行执行Python文件。
如果我们想要等待这个子线程结束,就必须通过join方法。另外,为了预防子线程锁死一直无法退出的情况, 我们还可以 在joih当中设置timeout ,即最长等待时间,当等待时间到达之后,将不再等待。
比如我在join当中设置的timeout等于5时,屏幕上就只会输出5个数字。
另外,如果没有设置成后台线程的话,设置timeout虽然也有用,但是 进程仍然会等待所有子线程结束 。所以屏幕上的输出结果会是这样的:
虽然主线程继续往下执行并且结束了,但是子线程仍然一直运行,直到子线程也运行结束。
关于join设置timeout这里有一个坑,如果我们只有一个线程要等待还好,如果有多个线程,我们用一个循环将它们设置等待的话。那么 主线程一共会等待N * timeout的时间 ,这里的N是线程的数量。因为每个线程计算是否超时的开始时间是上一个线程超时结束的时间,它会等待所有线程都超时,才会一起终止它们。
比如我这样创建3个线程:
ths = [] for i in range(3): t = threading.Thread(target=loop, name='LoopThread' + str(i), args=(10, ), daemon=True) ths.append(t) for t in ths: t.start() for t in ths: t.join(2)最后屏幕上输出的结果是这样的:
所有线程都存活了6秒。
总结在今天的文章当中,我们一起简单了解了 操作系统当中线程和进程的概念 ,以及Python当中如何创建一个线程,以及关于创建线程之后的相关使用。
多线程在许多语言当中都是至关重要的,许多场景下必定会使用到多线程。比如 web后端,比如爬虫,再比如游戏开发 以及其他所有需要涉及开发ui界面的领域。因为凡是涉及到ui,必然会需要一个线程单独渲染页面,另外的线程负责准备数据和执行逻辑。因此,多线程是专业程序员绕不开的一个话题,也是一定要掌握的内容之一。
6. BAT面试题28:Python是如何进行内存管理的
Python的内存管理,一般从以下三个方面来说:
1)对象的引用计数机制(四增五减)
2)垃圾回收机制(手动自动,分代回收)
3)内存池机制(大m小p)
1)对象的引用计数机制
要保持追踪内存中的对象,Python使用了引用计数这一简单的技术。sys.getrefcount(a)可以查看a对象的引用计数,但是比正常计数大1,因为调用函数的时候传入a,这会让a的引用计数+1
2)垃圾回收机制
吃太多,总会变胖,Python也是这样。当Python中的对象越来越多,它们将占据越来越大的内存。不过你不用太担心Python的体形,它会在适当的时候“减肥”,启动垃圾回收(garbage
collection),将没用的对象清除
从基本原理上,当Python的某个对象的引用计数降为0时,说明没有任何引用指向该对象,该对象就成为要被回收的垃圾了
比如某个新建对象,它被分配给某个引用,对象的引用计数变为1。如果引用被删除,对象的引用计数为0,那么该对象就可以被垃圾回收。
然而,减肥是个昂贵而费力的事情。垃圾回收时,Python不能进行其它的任务。频繁的垃圾回收将大大降低Python的工作效率。如果内存中的对象不多,就没有必要总启动垃圾回收。
所以,Python只会在特定条件下,自动启动垃圾回收。当Python运行时,会记录其中分配对象(object
allocation)和取消分配对象(object deallocation)的次数。当两者的差值高于某个阈值时,垃圾回收才会启动。
我们可以通过gc模块的get_threshold()方法,查看该阈值。
3)内存池机制
Python中有分为大内存和小内存:(256K为界限分大小内存)
1、大内存使用malloc进行分配
2、小内存使用内存池进行分配
python中的内存管理机制都有两套实现,一套是针对小对象,就是大小小于256K时,pymalloc会在内存池中申请内存空间;当大于256K时,则会直接执行系统的malloc的行为来申请内存空间。