A. BAT面試題28:python是如何進行內存管理的
Python的內存管理,一般從以下三個方面來說:
1)對象的引用計數機制(四增五減)
2)垃圾回收機制(手動自動,分代回收)
3)內存池機制(大m小p)
1)對象的引用計數機制
要保持追蹤內存中的對象,Python使用了引用計數這一簡單的技術。sys.getrefcount(a)可以查看a對象的引用計數,但是比正常計數大1,因為調用函數的時候傳入a,這會讓a的引用計數+1
2)垃圾回收機制
吃太多,總會變胖,Python也是這樣。當Python中的對象越來越多,它們將占據越來越大的內存。不過你不用太擔心Python的體形,它會在適當的時候「減肥」,啟動垃圾回收(garbage
collection),將沒用的對象清除
從基本原理上,當Python的某個對象的引用計數降為0時,說明沒有任何引用指向該對象,該對象就成為要被回收的垃圾了
比如某個新建對象,它被分配給某個引用,對象的引用計數變為1。如果引用被刪除,對象的引用計數為0,那麼該對象就可以被垃圾回收。
然而,減肥是個昂貴而費力的事情。垃圾回收時,Python不能進行其它的任務。頻繁的垃圾回收將大大降低Python的工作效率。如果內存中的對象不多,就沒有必要總啟動垃圾回收。
所以,Python只會在特定條件下,自動啟動垃圾回收。當Python運行時,會記錄其中分配對象(object
allocation)和取消分配對象(object deallocation)的次數。當兩者的差值高於某個閾值時,垃圾回收才會啟動。
我們可以通過gc模塊的get_threshold()方法,查看該閾值。
3)內存池機制
Python中有分為大內存和小內存:(256K為界限分大小內存)
1、大內存使用malloc進行分配
2、小內存使用內存池進行分配
python中的內存管理機制都有兩套實現,一套是針對小對象,就是大小小於256K時,pymalloc會在內存池中申請內存空間;當大於256K時,則會直接執行系統的malloc的行為來申請內存空間。
B. 怎麼讓python在內存中運行
對象的內存使用
賦值語句是語言最常見的功能了。但即使是最簡單的賦值語句,也可以很有內涵。Python的賦值語句就很值得研究。
a = 1
整數1為一個對象。而a是一個引用。利用賦值語句,引用a指向對象1。Python是動態類型的語言(參考動態類型),對象與引用分離。Python像使用「筷子」那樣,通過引用來接觸和翻動真正的食物——對象。
引用和對象
為了探索對象在內存的存儲,我們可以求助於Python的內置函數id()。它用於返回對象的身份(identity)。其實,這里所謂的身份,就是該對象的內存地址。
a = 1
print(id(a))
print(hex(id(a)))
在我的計算機上,它們返回的是:
11246696
'0xab9c68'
分別為內存地址的十進制和十六進製表示。
在Python中,整數和短小的字元,Python都會緩存這些對象,以便重復使用。當我們創建多個等於1的引用時,實際上是讓所有這些引用指向同一個對象。
a = 1
b = 1
print(id(a))
print(id(b))
上面程序返回
11246696
11246696
可見a和b實際上是指向同一個對象的兩個引用。
為了檢驗兩個引用指向同一個對象,我們可以用is關鍵字。is用於判斷兩個引用所指的對象是否相同。
# True
a = 1
b = 1
print(a is b)
# True
a = "good"
b = "good"
print(a is b)
# False
a = "very good morning"
b = "very good morning"
print(a is b)
# False
a = []
b = []
print(a is b)
上面的注釋為相應的運行結果。可以看到,由於Python緩存了整數和短字元串,因此每個對象只存有一份。比如,所有整數1的引用都指向同一對象。即使使用賦值語句,也只是創造了新的引用,而不是對象本身。長的字元串和其它對象可以有多個相同的對象,可以使用賦值語句創建出新的對象。
在Python中,每個對象都有存有指向該對象的引用總數,即引用計數(reference count)。
我們可以使用sys包中的getrefcount(),來查看某個對象的引用計數。需要注意的是,當使用某個引用作為參數,傳遞給getrefcount()時,參數實際上創建了一個臨時的引用。因此,getrefcount()所得到的結果,會比期望的多1。
from sys import getrefcount
a = [1, 2, 3]
print(getrefcount(a))
b = a
print(getrefcount(b))
由於上述原因,兩個getrefcount將返回2和3,而不是期望的1和2。
對象引用對象
Python的一個容器對象(container),比如表、詞典等,可以包含多個對象。實際上,容器對象中包含的並不是元素對象本身,是指向各個元素對象的引用。
我們也可以自定義一個對象,並引用其它對象:
class from_obj(object):
def __init__(self, to_obj):
self.to_obj = to_obj
b = [1,2,3]
a = from_obj(b)
print(id(a.to_obj))
print(id(b))
可以看到,a引用了對象b。
對象引用對象,是Python最基本的構成方式。即使是a = 1這一賦值方式,實際上是讓詞典的一個鍵值"a"的元素引用整數對象1。該詞典對象用於記錄所有的全局引用。該詞典引用了整數對象1。我們可以通過內置函數globals()來查看該詞典。
當一個對象A被另一個對象B引用時,A的引用計數將增加1。
from sys import getrefcount
a = [1, 2, 3]
print(getrefcount(a))
b = [a, a]
print(getrefcount(a))
由於對象b引用了兩次a,a的引用計數增加了2。
容器對象的引用可能構成很復雜的拓撲結構。我們可以用objgraph包來繪制其引用關系,比如
x = [1, 2, 3]
y = [x, dict(key1=x)]
z = [y, (x, y)]
import objgraph
objgraph.show_refs([z], filename='ref_topo.png')
objgraph是Python的一個第三方包。安裝之前需要安裝xdot。
sudo apt-get install xdot
sudo pip install objgraph
objgraph官網
兩個對象可能相互引用,從而構成所謂的引用環(reference cycle)。
a = []
b = [a]
a.append(b)
即使是一個對象,只需要自己引用自己,也能構成引用環。
a = []
a.append(a)
print(getrefcount(a))
引用環會給垃圾回收機制帶來很大的麻煩,我將在後面詳細敘述這一點。
引用減少
某個對象的引用計數可能減少。比如,可以使用del關鍵字刪除某個引用:
from sys import getrefcount
a = [1, 2, 3]
b = a
print(getrefcount(b))
del a
print(getrefcount(b))
del也可以用於刪除容器元素中的元素,比如:
a = [1,2,3]
del a[0]
print(a)
如果某個引用指向對象A,當這個引用被重新定向到某個其他對象B時,對象A的引用計數減少:
from sys import getrefcount
a = [1, 2, 3]
b = a
print(getrefcount(b))
a = 1
print(getrefcount(b))
垃圾回收
吃太多,總會變胖,Python也是這樣。當Python中的對象越來越多,它們將占據越來越大的內存。不過你不用太擔心Python的體形,它會乖巧的在適當的時候「減肥」,啟動垃圾回收(garbage collection),將沒用的對象清除。在許多語言中都有垃圾回收機制,比如Java和Ruby。盡管最終目的都是塑造苗條的提醒,但不同語言的減肥方案有很大的差異 (這一點可以對比本文和Java內存管理與垃圾回收
)。
從基本原理上,當Python的某個對象的引用計數降為0時,說明沒有任何引用指向該對象,該對象就成為要被回收的垃圾了。比如某個新建對象,它被分配給某個引用,對象的引用計數變為1。如果引用被刪除,對象的引用計數為0,那麼該對象就可以被垃圾回收。比如下面的表:
a = [1, 2, 3]
del a
del a後,已經沒有任何引用指向之前建立的[1, 2, 3]這個表。用戶不可能通過任何方式接觸或者動用這個對象。這個對象如果繼續待在內存里,就成了不健康的脂肪。當垃圾回收啟動時,Python掃描到這個引用計數為0的對象,就將它所佔據的內存清空。
然而,減肥是個昂貴而費力的事情。垃圾回收時,Python不能進行其它的任務。頻繁的垃圾回收將大大降低Python的工作效率。如果內存中的對象不多,就沒有必要總啟動垃圾回收。所以,Python只會在特定條件下,自動啟動垃圾回收。當Python運行時,會記錄其中分配對象(object allocation)和取消分配對象(object deallocation)的次數。當兩者的差值高於某個閾值時,垃圾回收才會啟動。
我們可以通過gc模塊的get_threshold()方法,查看該閾值:
import gc
print(gc.get_threshold())
返回(700, 10, 10),後面的兩個10是與分代回收相關的閾值,後面可以看到。700即是垃圾回收啟動的閾值。可以通過gc中的set_threshold()方法重新設置。
我們也可以手動啟動垃圾回收,即使用gc.collect()。
分代回收
Python同時採用了分代(generation)回收的策略。這一策略的基本假設是,存活時間越久的對象,越不可能在後面的程序中變成垃圾。我們的程序往往會產生大量的對象,許多對象很快產生和消失,但也有一些對象長期被使用。出於信任和效率,對於這樣一些「長壽」對象,我們相信它們的用處,所以減少在垃圾回收中掃描它們的頻率。
小傢伙要多檢查
Python將所有的對象分為0,1,2三代。所有的新建對象都是0代對象。當某一代對象經歷過垃圾回收,依然存活,那麼它就被歸入下一代對象。垃圾回收啟動時,一定會掃描所有的0代對象。如果0代經過一定次數垃圾回收,那麼就啟動對0代和1代的掃描清理。當1代也經歷了一定次數的垃圾回收後,那麼會啟動對0,1,2,即對所有對象進行掃描。
這兩個次數即上面get_threshold()返回的(700, 10, 10)返回的兩個10。也就是說,每10次0代垃圾回收,會配合1次1代的垃圾回收;而每10次1代的垃圾回收,才會有1次的2代垃圾回收。
同樣可以用set_threshold()來調整,比如對2代對象進行更頻繁的掃描。
import gc
gc.set_threshold(700, 10, 5)
孤立的引用環
引用環的存在會給上面的垃圾回收機制帶來很大的困難。這些引用環可能構成無法使用,但引用計數不為0的一些對象。
a = []
b = [a]
a.append(b)
del a
del b
上面我們先創建了兩個表對象,並引用對方,構成一個引用環。刪除了a,b引用之後,這兩個對象不可能再從程序中調用,就沒有什麼用處了。但是由於引用環的存在,這兩個對象的引用計數都沒有降到0,不會被垃圾回收。
孤立的引用環
為了回收這樣的引用環,Python復制每個對象的引用計數,可以記為gc_ref。假設,每個對象i,該計數為gc_ref_i。Python會遍歷所有的對象i。對於每個對象i引用的對象j,將相應的gc_ref_j減1。
遍歷後的結果
在結束遍歷後,gc_ref不為0的對象,和這些對象引用的對象,以及繼續更下游引用的對象,需要被保留。而其它的對象則被垃圾回收。
C. python的內存管理機制
論壇
活動
招聘
專題
打開CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved
登錄
XCCS_澍
關注
Python 的內存管理機制及調優手段? 原創
2018-08-05 06:50:53
XCCS_澍
碼齡7年
關注
內存管理機制:引用計數、垃圾回收、內存池。
一、引用計數:
引用計數是一種非常高效的內存管理手段, 當一個 Python 對象被引用時其引用計數增加 1, 當其不再被一個變數引用時則計數減 1. 當引用計數等於 0 時對象被刪除。
二、垃圾回收 :
1. 引用計數
引用計數也是一種垃圾收集機制,而且也是一種最直觀,最簡單的垃圾收集技術。當 Python 的某個對象的引用計數降為 0 時,說明沒有任何引用指向該對象,該對象就成為要被回收的垃圾了。比如某個新建對象,它被分配給某個引用,對象的引用計數變為 1。如果引用被刪除,對象的引用計數為 0,那麼該對象就可以被垃圾回收。不過如果出現循環引用的話,引用計數機制就不再起有效的作用了
2. 標記清除
如果兩個對象的引用計數都為 1,但是僅僅存在他們之間的循環引用,那麼這兩個對象都是需要被回收的,也就是說,它們的引用計數雖然表現為非 0,但實際上有效的引用計數為 0。所以先將循環引用摘掉,就會得出這兩個對象的有效計數。
3. 分代回收
從前面「標記-清除」這樣的垃圾收集機制來看,這種垃圾收集機制所帶來的額外操作實際上與系統中總的內存塊的數量是相關的,當需要回收的內存塊越多時,垃圾檢測帶來的額外操作就越多,而垃圾回收帶來的額外操作就越少;反之,當需回收的內存塊越少時,垃圾檢測就將比垃圾回收帶來更少的額外操作。
D. Python 中的垃圾回收機制
python採用的是 引用計數 機制為主, 標記-清除 和 分代收集(隔代回收) 兩種機制為輔的策略。
python里每一個東西都是對象,它們的核心就是一個結構體:PyObject
PyObject是每個對象必有的內容,其中ob_refcnt就是做為引用計數。當一個對象有新的引用時,它的ob_refcnt就會增加,當引用它的對象被刪除,它的ob_refcnt就會減少
引用計數為0時,該對象生命就結束了。
引用計數機制的優點:
1、簡單
2、實時性:一旦沒有引用,內存就直接釋放了,不用像其他機製得等到特定時機。實時性還帶來一個好處:處理回收內存的時間分攤到了平時。
引用計數機制的缺點:
1、維護引用計數消耗資源
2、循環引用
案例:
循環引用導致內存泄露
有三種情況會觸發垃圾回收:
gc模塊提供一個介面給開發者設置垃圾回收的選項。上面說到,採用引用計數的方法管理內存的一個缺陷是循環引用,而gc模塊的一個主要功能就是解決循環引用的問題。
常用函數 :
gc實踐案例
必須要import gc模塊,並且is_enable()=True才會啟動自動垃圾回收。
這個機制的主要作用就是發現並處理不可達的垃圾對象。
在Python中,採用分代收集的方法。把對象分為三代,一開始,對象在創建的時候,放在一代中,如果在一次一代的垃圾檢查中,該對象存活下來,就會被放到二代中,同理在一次二代的垃圾檢查中,該對象存活下來,就會被放到三代中。
gc模塊裡面會有一個長度為3的列表的計數器,可以通過 gc.get_count() 獲取。
gc模快有一個自動垃圾回收的閥值,即通過 gc.get_threshold 函數獲取到的長度為3的元組,例如 (700,10,10)
每一次計數器的增加,gc模塊就會檢查增加後的計數是否達到閥值的數目,如果是,就會執行對應的代數的垃圾檢查,然後重置計數器
注意:
如果循環引用中,兩個對象都定義了 __del__ 方法,gc模塊不會銷毀這些不可達對象,因為gc模塊不知道應該先調用哪個對象的 __del__ 方法,所以為了安全起見,gc模塊會把對象放到 gc.garbage 中,但是不會銷毀對象。
標記清除(Mark—Sweep)』演算法是一種基於追蹤回收(tracing GC)技術實現的垃圾回收演算法。它分為兩個階段:第一階段是標記階段,GC會把所有的『活動對象』打上標記,第二階段是把那些沒有標記的對象『非活動對象』進行回收。那麼GC又是如何判斷哪些是活動對象哪些是非活動對象的呢?
對象之間通過引用(指針)連在一起,構成一個有向圖,對象構成這個有向圖的節點,而引用關系構成這個有向圖的邊。從根對象(root object)出發,沿著有向邊遍歷對象,可達的(reachable)對象標記為活動對象,不可達的對象就是要被清除的非活動對象。根對象就是全局變數、調用棧、寄存器。 mark-sweepg 在上圖中,我們把小黑圈視為全局變數,也就是把它作為root object,從小黑圈出發,對象1可直達,那麼它將被標記,對象2、3可間接到達也會被標記,而4和5不可達,那麼1、2、3就是活動對象,4和5是非活動對象會被GC回收。
標記清除演算法作為Python的輔助垃圾收集技術主要處理的是一些容器對象,比如list、dict、tuple,instance等,因為對於字元串、數值對象是不可能造成循環引用問題。Python使用一個雙向鏈表將這些容器對象組織起來。不過,這種簡單粗暴的標記清除演算法也有明顯的缺點:清除非活動的對象前它必須順序掃描整個堆內存,哪怕只剩下小部分活動對象也要掃描所有對象。
E. python中如何判斷class當前有哪些實例
這個需求可以通過定義類屬性來實現。類屬性不屬於對象,可以被這個類的所有對象所共享。可以通過類屬性來記錄對象數目。對象是沒有「名字」的。通過變數名訪問對象,實際上是訪問對象的引用。一個對象會可能會有多個引用,因此變數名不是對象的名稱。如果要用一個名字來對應唯一的對象,就可以使用對象的ID。
使用類屬性計數的示例:
classFoo:
count=0#用來計數
ids=[]#存儲所有已經創建對象的id
def__init__(self):
Foo.count+=1
Foo.ids.append(id(self))
def__del__(self):
Foo.count-=1
foriinrange(len(Foo.ids)):
ifid(self)==Foo.ids[i]:
delFoo.ids[i]
break
a=Foo()
b=Foo()
printFoo.count
dela
printFoo.count
望採納!
F. python 處理大數據程序運行的越來越慢的問題
最近編寫並運行了一個處理1500萬個數據的程序,本來最初每秒可以處理150個左右的數據,預計大概15個小時的時間就可以處理完,晚上的時候就開始運行,本以為等到第二天中午就可以得到結果呢,,,
可是,等我第二天的時候一看,什麼???還沒處理完,當前的數據處理速度變成了一秒5個左右,然後還需要等待300個小時。
然後就查了一下這個問題,原來同樣也有很多人在處理大數據的時候遇到了這個問題,大多數的文章分析的原因都是說由於GC(垃圾回收)造成的性能下降。
Python的垃圾回收機制的工作原理為每個對象維護一個引用計數,每次內存對象的創建與銷毀都必須修改引用計數,從而在大量的對象創建時,需要大量的執行修改引用計數操作,對於程序執行過程中,額外的性能開銷是令人可怕的。回收的觸發時機有兩種可能,一是用戶主動調用gc.collect(),二是對象數量超過閾值。
所以正是GC拖慢了程序的性能,所以我們可以考慮在處理的時候禁止垃圾回收。
通過這樣的改進之後速度確度會有很大的提升。但是又有也會另外的一個問題,內存溢出,由於運行的過程中生成大量的對象,一次使用後就沒有了引用,由於關閉了垃圾回收機制,一直存在內存中得不到清理,然後程序的內存使用量越來越大。解決的方法就是定期打開gc.enable()再關閉或者主動調用gc.collect(),這樣就可以了。
通過上述的改進後程序確實了很多,可是我的程序還是運行的越來越慢,我都懷疑人生了,然後分別測試了各個步驟所花費的時間才知道了原因,我使用了pandas創建一個DataFrame,然後每次迭代得到的結果都添加新的數據到DataFrame中,隨著里邊的數據越來越多,添加的速度也就越來越慢了,嚴重的拖累的運行速度。這里的解決方法有兩個:
1 分段保存結果,間隔一段時間就保存一次結果,最後再將多次的結果合並。
2 換一個數據存儲方法,我是直接使用了python的字典進行保存結果,它隨著數據的增多添加的速度也會變慢,但是差別不是很大,在可接受的范圍內,可以使用;或者再加上方法1,分段進行保存再合並也是可以的。