pythonnumpysorted_Python判斷列表是否已排序的各種方法及其性能

① 為什麼python內置的sort比自己寫的快速排序快100倍

主要原因，內置函數用C寫的。在Python語言內無論如何造不出內置函數的輪子。這也是通常C跟C++語言用戶更喜歡造基礎演算法的輪了的原因。因為C/C++用戶真有條件寫出匹敵標准庫的演算法，但很多高級語言不行，不是程序員技術差，是客觀條件就根本做不到。

你比如說Java語言沒人造字元串的輪子，C++光一個字元串類就有無數多的實現。是因為C+用戶更喜歡寫字元串類嗎？顯然不是，一方面是因為Java語言內沒法造出匹敵Java內置標准庫演算法的輪子，而C++真的可以，另外一個比較慘的原因是C++標准庫的字元串功能太弱了，大多數高級語言的字元串類功能都比C+標准庫字元串類功能更強。

Cpp內置的排序是快排和堆排的結合，最壞時間復雜度為nlogn，而快排最壞是n2。至於python內部的排序，我認為是一個道理，不會簡簡單單是一個快排，舉個簡單例子，當你數據已經是有序的時候，再傳入快排肯定就不合適。那你設置排序函數的時候，是不是預先將他打亂，再進行快排會更好呢。當然具體不會這么簡單，只是我認為官方給的介面都是很精妙的，很值得學習。

一方面Python中sort函數是用C語言寫的，C++內部的sort是由快排，直接插入和堆排序混合的，當數據量比較大的時候先用的快排，當數據量小的時候用直接插入，因為當數據量變小時，快排中的每個部分基本有序，接近直接插入的最好情況的時間復雜度O（n），就比快排要好一點了。

另外一方面這個的底層實現就是歸並排序。，只是使用了Python無法編寫的底層實現，從而避免了Python本身附加的大量開銷，速度比我們自己寫的歸並排序要快很多，所以說我們一般排序都盡量使用sorted和sort。

② python numpy如何查詢數組是否有某個數的總個數

importnumpyasnpa=np.ones((4,5))print(a)print(np.sum(a==1))

假定數組為a

可以先試用a==某個數，轉換為一個包含True或者False的數字，

等於該樹則為True，不等於則為False

True又可以當作1，False可以當作0

使用np.sum求和可以得到等於該數的總個數

③ python 如何生成和為固定值的N個隨機數

很簡單，不用那麼蠢的代碼。
如果你不需要最終產生的隨機數是整數的話，只需要隨機產生10個隨機數，然後計算它們的合是多少，然後算下這個合和60之間的比例，把所有的隨機數乘以一個比例就可以了。給你兩個方法參考，都是可以的。見方法1，方法2的代碼。
如果你需要最終產生整數的話，那就隨機產生9個隨機數，在算比例的時候變一下分母分子，然後最後用原list除以比例的時候用整除就可以了。這樣9個數全是整數，然後算一下這九個數和60的差值，把差值補充進去做為第十個數就可以了。見方法1'和方法2』。
import numpy as np
#方法1：產生0-1的10個隨機浮點數，然後乘以比例達到最終合為60
x0=np.random.rand(10)
ratio=60/sum(x0)
x1=x0*ratio
#方法2：產生10個0-60之間的10個隨機整數，然後乘以比例達到最終合為60
y0=np.random.randint(60,size=10)
ratio=60/sum(y0)
y1=y0*ratio
#方法1'：產生0-1的9個隨機浮點數，然後除以比例達到9個數為整數，最後補充一個60和這個
#list的和的差值，就可以了。
x0=np.random.rand(9)
ratio=sum(x0)/60
x1=x0//ratio
x1=x1.tolist()
x1.append(60-sum(x1))
#方法2'：產生10個0-60之間的隨機整數，然後除以比例達到9個數為整數，最後補充一個60和這個
#list的和的差值，就可以了。
y0=np.random.randint(60,size=9)
ratio=sum(y0)/60
y1=y0//ratio
y1=y1.tolist()
y1.append(60-sum(y1))

④ Python判斷列表是否已排序的各種方法及其性能

本節判斷列表排序的函數名格式為IsListSorted_XXX()。為簡潔起見，除代碼片段及其輸出外，一律以_XXX()指代。
2.1 guess
def IsListSorted_guess(lst):
listLen = len(lst) if listLen <= 1: return True

#由首個元素和末尾元素猜測可能的排序規則
if lst[0] == lst[-1]: #列表元素相同
for elem in lst: if elem != lst[0]: return False
elif lst[0] < lst[-1]: #列表元素升序
for i, elem in enumerate(lst[1:]): if elem < lst[i]: return False
else: #列表元素降序
for i, elem in enumerate(lst[1:]): if elem > lst[i]: return False

return True

_guess()是最通用的實現，幾乎與語言無關。值得注意的是，該函數內會猜測給定列表可能的排序規則，因此無需外部調用者指明排序規則。
2.2 sorted
def IsListSorted_sorted(lst):
return sorted(lst) == lst or sorted(lst, reverse=True) == lst

_sorted()使用Python內置函數sorted()。由於sorted()會對未排序的列表排序，_sorted()函數主要適用於已排序列表。
若想判斷列表未排序後再對其排序，不如直接調用列表的sort()方法，因為該方法內部會判斷列表是否排序。對於已排序列表，該方法的時間復雜度為線性階O(n)——判斷為O(n)而排序為O(nlgn)。
2.3 for-loop
def IsListSorted_forloop(lst, key=lambda x, y: x <= y):
for i, elem in enumerate(lst[1:]): #注意，enumerate默認迭代下標從0開始
if not key(lst[i], elem): #if elem > lst[i]更快，但通用性差
return False
return True

無論列表是否已排序，本函數的時間復雜度均為線性階O(n)。注意，參數key表明預設的排序規則為升序。
2.4 all
def IsListSorted_allenumk(lst, key=lambda x, y: x <= y):
return all(key(lst[i], elem) for i, elem in enumerate(lst[1:]))import operatordef IsListSorted_allenumo(lst, oCmp=operator.le):
return all(oCmp(lst[i], elem) for i, elem in enumerate(lst[1:]))def IsListSorted_allenumd(lst):
return all((lst[i] <= elem) for i, elem in enumerate(lst[1:]))def IsListSorted_allxran(lst, key=lambda x,y: x <= y):
return all(key(lst[i],lst[i+1]) for i in xrange(len(lst)-1))def IsListSorted_allzip(lst, key=lambda x,y: x <= y):
from itertools import izip #Python 3中zip返回生成器(generator)，而izip被廢棄
return all(key(a, b) for (a, b) in izip(lst[:-1],lst[1:]))

lambda表達式與operator運算符速度相當，前者簡單靈活，後者略為高效(實測並不一定)。但兩者速度均不如列表元素直接比較(可能存在調用開銷)。亦即，_allenumd()快於_allenumo()快於_allenumk()。
若使用lambda表達式指示排序規則，更改規則時只需要改變x和y之間的比較運算符；若使用operator模塊指示排序規則，更改規則時需要改變對象比較方法。具體地，lt(x, y)等效於x < y，le(x, y)等效於x <= y，eq(x, y)等效於x == y，ne(x, y)等效於x != y，gt(x, y)等效於x > y，ge(x, y)等效於x >= y。例如，_allenumo()函數若要嚴格升序可設置oCmp=operator.lt。
此外，由all()函數的幫助信息可知，_allenumk()其實是_forloop()的等效形式。
2.5 numpy
def IsListSorted_numpy(arr, key=lambda dif: dif >= 0):
import numpy try: if arr.dtype.kind == 'u': #無符號整數數組執行np.diff時存在underflow風險
arr = numpy.int64(lst) except AttributeError: pass #無dtype屬性，非數組
return (key(numpy.diff(arr))).all() #numpy.diff(x)返回相鄰數組元素的差值構成的數組

NumPy是用於科學計算的Python基礎包，可存儲和處理大型矩陣。它包含一個強大的N維數組對象，比Python自身的嵌套列表結構(nested list structure)高效得多。第三節的實測數據表明，_numpy()處理大型列表時性能非常出色。
在Windows系統中可通過pip install numpy命令安裝NumPy包，不建議登錄官網下載文件自行安裝。
2.6 rece
def IsListSorted_rece(iterable, key=lambda x, y: x <= y):
cmpFunc = lambda x, y: y if key(x, y) else float('inf') return rece(cmpFunc, iterable, .0) < float('inf')

rece實現是all實現的變體。累加器(accumulator)中僅存儲最後一個檢查的列表元素，或者Infinity(若任一元素小於前個元素值)。
前面2.1~2.5小節涉及下標操作的函數適用於列表等可迭代對象(Iterable)。對於通用迭代器(Iterator)對象，即可以作用於next()函數或方法的對象，可使用_rece()及後面除_rand()外各小節的函數。迭代器的計算是惰性的，只有在需要返回下一個數據時才會計算，以避免不必要的計算。而且，迭代器方式無需像列表那樣切片為兩個迭代對象。
2.7 imap
def IsListSorted_itermap(iterable, key=lambda x, y: x <= y):
from itertools import imap, tee
a, b = tee(iterable) #為單個iterable創建兩個獨立的iterator
next(b, None) return all(imap(key, a, b))

2.8 izip
def IsListSorted_iterzip(iterable, key=lambda x, y: x <= y):
from itertools import tee, izip
a, b = tee(iterable) next(b, None) return all(key(x, y) for x, y in izip(a, b))def pairwise(iterable):
from itertools import tee, izip
a, b = tee(iterable) next(b, None) return izip(a, b) #"s -> (s0,s1), (s1,s2), (s2, s3), ..."def IsListSorted_iterzipf(iterable, key=lambda x, y: x <= y):
return all(key(a, b) for a, b in pairwise(iterable))

第三節的實測數據表明，雖然存在外部函數調用，_iterzipf()卻比_iterzip()略為高效。
2.9 fast
def IsListSorted_fastd(lst):
it = iter(lst) try:
prev = it.next() except StopIteration: return True
for cur in it: if prev > cur: return False
prev = cur return Truedef IsListSorted_fastk(lst, key=lambda x, y: x <= y):
it = iter(lst) try:
prev = it.next() except StopIteration: return True
for cur in it: if not key(prev, cur): return False
prev = cur return True

_fastd()和_fastk()是Stack Overflow網站回答里據稱執行最快的。實測數據表明，在列表未排序時，它們的性能表現確實優異。
2.10 random
import randomdef IsListSorted_rand(lst, randNum=3, randLen=100):
listLen = len(lst) if listLen <= 1: return True

#由首個元素和末尾元素猜測可能的排序規則
if lst[0] < lst[-1]: #列表元素升序
key = lambda dif: dif >= 0
else: #列表元素降序或相等
key = lambda dif: dif <= 0

threshold, sortedFlag = 10000, True
import numpy if listLen <= threshold or listLen <= randLen*2 or not randNum: return (key(numpy.diff(numpy.array(lst)))).all() from random import sample for i in range(randNum):
sortedRandList = sorted(sample(xrange(listLen), randLen))
flag = (key(numpy.diff(numpy.array([lst[x] for x in sortedRandList])))).all()
sortedFlag = sortedFlag and flag return sortedFlag

_rand()藉助隨機采樣降低運算規模，並融入其他判斷函數的優點。例如，猜測列表可能的排序規則，並在隨機采樣不適合時使用相對快速的判斷方式，如NumPy。
通過line_profiler分析可知，第20行和第21行與randLen有關，但兩者耗時接近。因此randLen應小於listLen的一半，以抵消sorted開銷。除內部限制外，用戶可以調節隨機序列個數和長度，如定製單個但較長的序列。
注意，_rand()不適用於存在微量異常數據的長列表。因為這些數據很可能被隨機采樣遺漏，從而影響判斷結果的准確性。

⑤ 如何使用python將二維數組去重呢

# 例子import numpy as npdata = np.array([[1,2,3,4,5], [1,2,3,6,7], [2,3,4,5,7], [3,4,5,6,7], [4,5,6,7,8]])sorted_cols = []for col_no in range(data.shape[1]): sorted_cols.append(data[np.argsort(data[:,col_no])][:,col_no])sorted_...

⑥ 如何計算百分位數與Python / numpy的

1. 你可能會喜歡SciPy的統計軟體包。它有百分函數你之後，許多其他統計好吃的東西。
此票證相信他們不會被整合percentile()到numpy的很快。
2.
順便說一句，有百分函數的純Python，萬一一個不希望依賴於SciPy的。具體函數如下復制：
## {{{ CodeGo.net (r1)
import math
import functools
def percentile(N, percent, key=lambda x:x):
"""
Find the percentile of a list of values.
@parameter N - is a list of values. Note N MUST BE already sorted.
@parameter percent - a float value from 0.0 to 1.0.
@parameter key - optional key function to compute value from each element of N.
@return - the percentile of the values
"""
if not N:
return None
k = (len(N)-1) * percent
f = math.floor(k)
c = math.ceil(k)
if f == c:
return key(N[int(k)])
d0 = key(N[int(f)]) * (c-k)
d1 = key(N[int(c)]) * (k-f)
return d0+d1
# median is 50th percentile.
median = functools.partial(percentile, percent=0.5)
## end of CodeGo.net }}}

3.
檢查scipy.stats模塊：
scipy.stats.scoreatpercentile
4.
import numpy as np
a = [154, 400, 1124, 82, 94, 108]
print np.percentile(a,95) # gives the 95th percentile

5.
百分看到定義預期結果從提供的列表，低於該值的百分之P被發現的價值。為了得到這一點，你一個簡單的函數。
def percentile(N, P):
"""
Find the percentile of a list of values
@parameter N - A list of values. N must be sorted.
@parameter P - A float value from 0.0 to 1.0
@return - The percentile of the values.
"""
n = int(round(P * len(N) + 0.5))
return N[n-1]
# A = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
# B = (15, 20, 35, 40, 50)
#
# print percentile(A, P=0.3)
# 4
# print percentile(A, P=0.8)
# 9
# print percentile(B, P=0.3)
# 20
# print percentile(B, P=0.8)
# 50

如果您寧願從處於或低於該值的百分之P被發現所提供的列表中獲得的價值，這個簡單的修改：
def percentile(N, P):
n = int(round(P * len(N) + 0.5))
if n > 1:
return N[n-2]
else:
return 0

6.
numpy.percentile
在那裡我很想念？
7.
size=len(mylist)
p5=mylist[math.ceil((size*5)/100)-1]
p25=mylist[math.ceil((size*25)/100)-1]
p50=mylist[math.ceil((size*50)/100)-1]
p75=mylist[math.ceil((size*75)/100)-1]
p95=mylist[math.ceil((size*95)/100)-1]

⑦ numpy如何查找數組中個數最多的元素

importnumpyasnp
b=np.array([[0,4,4],[2,0,3],[1,3,4]])
print('b=')
print(b)
l=sorted([(np.sum(b==i),i)foriinset(b.flat)])
'''
np.sum(b==i)#統計b中等於i的元素個數
set(b.flat)#將b轉為一維數組後，去除重復元素
sorted()#按元素個數從小到大排序
l[-1]#取出元素個數最多的元組對(count,element)
'''
print('maxtimesofelementinbis{1}with{0}times'.format(*l[-1]))

[willie@localhost pys]$ python3 countnumpy.py

[[0 4 4]

[2 0 3]

[1 3 4]]

max times of element in b is 4 with 3 times

⑧ 如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林演算法的預測。其中講的比較好的是各個參數的具體用途。
這里我給出我的理解和部分翻譯：
參數說明：
最主要的兩個參數是n_estimators和max_features。
n_estimators：表示森林裡樹的個數。理論上是越大越好。但是伴隨著就是計算時間的增長。但是並不是取得越大就會越好，預測效果最好的將會出現在合理的樹個數。
max_features：隨機選擇特徵集合的子集合，並用來分割節點。子集合的個數越少，方差就會減少的越快，但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則：
max_features＝n_features，如果是分類問題則max_features＝sqrt(n_features)。

如果想獲取較好的結果，必須將max_depth＝None,同時min_sample_split=1。
同時還要記得進行cross_validated（交叉驗證），除此之外記得在random forest中，bootstrap=True。但在extra-trees中，bootstrap=False。

這里也給出一篇老外寫的文章：調整你的隨機森林模型參數http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/

這里我使用了scikit-learn自帶的iris數據來進行隨機森林的預測：

[python]view plain

fromsklearn.
fromsklearn.
importnumpyasnp
fromsklearn.datasetsimportload_iris
iris=load_iris()
#printiris#iris的4個屬性是：萼片寬度萼片長度花瓣寬度花瓣長度標簽是花的種類：setosaversicolourvirginica
printiris['target'].shape
rf=RandomForestRegressor()#這里使用了默認的參數設置
rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練
#
#隨機挑選兩個預測不相同的樣本
instance=iris.data[[100,109]]
printinstance
print'instance0prediction；',rf.predict(instance[0])
print'instance1prediction；',rf.predict(instance[1])
printiris.target[100],iris.target[109]

返回的結果如下：

(150,)

[[ 6.3 3.3 6. 2.5]

[ 7.2 3.6 6.1 2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

在這里我有點困惑，就是在scikit-learn演算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構，甚至連父節點的選擇特徵都不知道是誰。所以我給出下面的代碼（這代碼不是我的原創），可以顯示的顯示出所有的特徵的貢獻。所以對於貢獻不大的，甚至是負貢獻的我們可以考慮刪除這一列的特徵值，避免做無用的分類。

[python]view plain

fromsklearn.cross_validationimportcross_val_score,ShuffleSplit
X=iris["data"]
Y=iris["target"]
names=iris["feature_names"]
rf=RandomForestRegressor()
scores=[]
foriinrange(X.shape[1]):
score=cross_val_score(rf,X[:,i:i+1],Y,scoring="r2",
cv=ShuffleSplit(len(X),3,.3))
scores.append((round(np.mean(score),3),names[i]))
printsorted(scores,reverse=True)

顯示的結果如下：

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

這里我們會發現petal width、petal length這兩個特徵將起到絕對的貢獻，之後是sepal length，影響最小的是sepal width。這段代碼將會提示我們各個特徵的貢獻，可以讓我們知道部分內部的結構。

導航:首頁 > 編程語言 > pythonnumpysorted

pythonnumpysorted

與pythonnumpysorted相關的資料