python抽樣函數_怎麼使用Python中Pandas庫Resample實現重采樣完成線性插值

1. python中如何實現分層抽樣

分層抽樣也叫按比例抽樣，根本樣本在總體中所佔的比例進行抽樣

2. R 和 Python 用於統計學分析，哪個更好

總的概括：R主要在學術界流行，python(numpy scipy)在工程方便比較實用。

R是S（Splus）的開源版本，或者下一代。發源地在紐西蘭奧克蘭。這個軟體的統計背景很濃烈。我這里濃烈的意思是，如果你不熟習統計知識（歷史）的話，R的幫助文檔看起來是很累的。由統計背景的人開發。R的維護組叫CRAN-R。在生物信息方便，有個叫bioconctor的組織，裡面有很多生物信息方面可以用的軟體包，他們有一套自己維護package系統。

Python是個綜合語言（這里特指指CPython解釋器），numpy scipy是數值計算的擴展包，pandas是主要用來做數據處理（numpy依賴），sympy做符號計算（類似mathematica？）此外還有一些不太成熟的包如sciki learn，statistical models。成熟度不如R。但是已經到了可用的水平了。是讀計算機的人寫的統計包。ipython 更新到1.0以後，功能基本完善，其notebook非常強大（感覺就像mathematica)而且還是基於web，在合作分享方面非常好用。

性能：
大家都說R慢，特別是CS的人。其實這里主要是兩點：一個R裡面數組的調用都是用復制的，二是Rscript慢。三是處理大數據慢。如果R用的好的話，R是不太慢的。具體來說就是Rscript用的少，多用命令，跑點小數據。這樣的話，實際在跑的都是背後的fortran和C庫。他們都有快二三十年歷史了。可謂異常可靠，優化得不能再優化了（指單線程，如果去看源代碼揮發先許多莫名的常數，永用了以後精度高速度快！）。比如一個自己編寫一個R腳本，loop套loop的那種，那真是想死的心都會有。外加一點，R處理文本文件很慢！

Python歸根揭底還是個有解釋器的腳本語言，而且有致命傷——GIL，但python最難能可貴的就是它很容易變得更快。比如pypy，cython，或者直接ctypes掛C庫。純python寫個原型，然後就開是不斷的profiling和加速吧。很輕易可以達到和C一個數量級的速度，但是寫程序、調試的時間少了很多。

並行計算：
R v15 之後有了自帶的parallel包，用挺輕松的。不過其實就是不停的fork，或者mpi，內存消耗挺厲害的。parSapply，parApply什麼的，真是很好用。

Python雖然有GIL——並行計算的死敵，但是有multiprocessing(fork依賴) ，是可以共享數據的什麼的，估計內存消耗方面比R好點，數據零散的話overhead很多。到了MPI的話，mpi4py還是挺好用的。用cython的話結合openmp可以打破GIL，但是過程中不能調用python的對象。

學習曲線：假設什麼編程都不會的同學。
R一開始還是很容易上手的，查到基本的命令，包，直接print一下就有結果了。但是如果要自己寫演算法、優化性能的時候，學習難度陡增。

Python么，挺好學的，絕大多數的幫助文檔都比R好了許多。有些包用起來沒R方便。總的來說深入吼R陡。

擴展資源：
基本上新的統計方法都會有R的package，安裝實用都不麻煩。但是基本上都是搞統計的人寫的計算機包。所以效能上可能有問好。比較出名的有兩個包的管理網站，cran-r 和bioconctor。所以搞生化的估計R用起來很方便。

python的統計計算包們比R少，多很年輕，還在不斷的開發中。優於是計算機人寫的統計包，用起來的時候要多漲個心眼。

畫圖：
R自帶的那些工具就挺好用了，然後還有ggplot這種非常優美的得力工具。

python 有matplotlib，畫出來效果感覺比R自帶的好一些些，而且界面基於QT，跨平台支持。可能是R用得多了，pyplot用起來還是不太順手，覺得其各個組建的統一性不高。

IDE：
Rstudio非常不錯，提供類matlab環境。（用過vim-r-plugin，用過emacs + ess現在用vim。）

windows 下有python(x,y) 還有許多商業的工具。（本人現在的emacs環境還不是很順手~）

建議：
如果只是處理（小）數據的，用R。結果更可靠，速度可以接受，上手方便，多有現成的命令、程序可以用。

要自己搞個演算法、處理大數據、計算量大的，用python。開發效率高，一切盡在掌握。

ps：盲目地用R的包比盲目的地用python的包要更安全。起碼R會把你指向一篇論文，而python只是指向一堆代碼。R出問題了還有論文作者、審稿人陪葬。

3. 如何進行拉丁超立方抽樣有軟體或者具體步驟是什麼

matlab中lhsdesign函數，和python的第三庫mcerp都是拉丁超立方抽樣的實現函數

4. 怎麼使用Python中Pandas庫Resample，實現重采樣，完成線性插值

#python中的pandas庫主要有DataFrame和Series類(面向對象的的語言更願意叫類) DataFrame也就是
#數據框(主要是借鑒R裡面的data.frame)，Series也就是序列，pandas底層是c寫的性能很棒，有大神
#做過測試處理億級別的數據沒問題，起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是標簽選取操作，df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行標簽']
df.loc[行標簽,列標簽]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#選取第二行，第二列的值，返回的為單個值
df.iloc[0,2],:]#選取第一行及第三行的數據
df.iloc[0:2,:]#選取第一行到第三行（不包含）的數據
df.iloc[:,1]#選取所有記錄的第一列的值，返回的為一個Series
df.iloc[1,:]#選取第一行數據，返回的為一個Series
print(df.ix[1,1]) # 更廣義的切片方式是使用.ix，它自動根據你給到的索引類型判斷是使用位置還是標簽進行切片
print(df.ix[0:2])
#DataFrame根據條件選取子集類似於sas裡面if、where ,R裡面的subset之類的函數
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名相當於sas裡面的rename R軟體中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#刪除列相當於sas中的drop R軟體中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序相當於sas裡面的sort R軟體裡面的df[order(x),]
df.sort(columns='C') #行排序 y軸上
df.sort(axis=1) #各個列之間位置排序 x軸上
#數據描述相當於sas中proc menas R軟體裡面的summary
df.describe()
#生成新的一列跟R裡面有點類似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加相當於sas中的append R裡面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最經典的join 跟sas和R裡面的merge類似跟sql裡面的各種join對照
merge()
#刪除重行跟sas裡面nokey R裡面的which(!plicated(df[])類似
df.drop_plicated()
#獲取最大值最小值的位置有點類似矩陣裡面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什麼不同自己摸索去
#讀取外部數據跟sas的proc import R裡面的read.csv等類似
read_excel() read_csv() read_hdf5() 等
與之相反的是df.to_excel() df.to_ecv()
#缺失值處理個人覺得pandas中缺失值處理比sas和R方便多了
df.fillna(9999) #用9999填充
#鏈接資料庫不多說 pandas裡面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很經典
#寫數據進資料庫
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas裡面的中的by R軟體中dplyr包中的group_by sql裡面的group by功能是一樣的這里不多說
#求啞變數
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透視表和交叉表跟sas裡面的proc freq步類似 R裡面的aggrate和cast函數類似
pd.pivot_table()
pd.crosstab()
#聚合函數經常跟group by一起組合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#數據查詢過濾

test.query("0.2
將STK_ID中的值過濾出來
stk_list = ['600809','600141','600329']中的全部記錄過濾出來，命令是：rpt[rpt['STK_ID'].isin(stk_list)].
將dataframe中，某列進行清洗的命令
刪除換行符：misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
刪除字元串前後空格：df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的話，命令是：
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

對dataframe中元素，進行類型轉換

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#時間變換主要依賴於datemie 和time兩個包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #篩選出以61開頭的數據
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示將字元串中以」<」開頭;以」>」結束的任意子串替換為空字元串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #獲的NAME的不同個數，類似於sql裡面count(distinct name)
#pandas中最核心最經典的函數apply map applymap

5. 如何用python和scikit learn實現神經網路

1：神經網路演算法簡介

2：Backpropagation演算法詳細介紹

3：非線性轉化方程舉例

4：自己實現神經網路演算法NeuralNetwork

5：基於NeuralNetwork的XOR實例

6：基於NeuralNetwork的手寫數字識別實例

7：scikit-learn中BernoulliRBM使用實例

8：scikit-learn中的手寫數字識別實例

一：神經網路演算法簡介

1：背景

以人腦神經網路為啟發，歷史上出現過很多版本，但最著名的是backpropagation

2：多層向前神經網路（Multilayer Feed-Forward Neural Network）

6. Python適合大數據量的處理嗎

python可以處理大數據，但是python處理大數據不一定是最優的選擇

公司中，很大量的數據處理工作工作是不需要面對非常大的數據的

7. 如何用python實現單位抽樣序列

你好，

resultList=[]
forindexinrange(50):
resultList.append(0)
resultList[0]=1

8. Python, pandas 取一列的前兩位數字

df.編號.astype(str).str.slice(0,2)

或

df.編號.astype(str).str[:2]

9. python多元線性回歸怎麼計算

1、什麼是多元線性回歸模型？

當y值的影響因素不唯一時,採用多元線性回歸模型。

y =y=β0+β1x1+β2x2+...+βnxn

例如商品的銷售額可能不電視廣告投入,收音機廣告投入,報紙廣告投入有關系,可以有 sales =β0+β1*TV+β2* radio+β3*newspaper.

2、使用pandas來讀取數據

pandas 是一個用於數據探索、數據分析和數據處理的python庫

[python]view plain

importpandasaspd

[html]view plain

<prename="code"class="python">#
data=pd.read_csv('/home/lulei/Advertising.csv')
#displaythefirst5rows
data.head()

上面代碼的運行結果：

TV Radio Newspaper Sales

0 230.1 37.8 69.2 22.1

1 44.5 39.3 45.1 10.4

2 17.2 45.9 69.3 9.3

3 151.5 41.3 58.5 18.5

4 180.8 10.8 58.4 12.9

上面顯示的結果類似一個電子表格，這個結構稱為Pandas的數據幀(data frame)，類型全稱：pandas.core.frame.DataFrame.

pandas的兩個主要數據結構：Series和DataFrame：

Series類似於一維數組，它有一組數據以及一組與之相關的數據標簽(即索引)組成。
DataFrame是一個表格型的數據結構，它含有一組有序的列，每列可以是不同的值類型。DataFrame既有行索引也有列索引，它可以被看做由Series組成的字典。

[python]view plain

#displaythelast5rows
data.tail()

只顯示結果的末尾5行

TV Radio Newspaper Sales

195 38.2 3.7 13.8 7.6

196 94.2 4.9 8.1 9.7

197 177.0 9.3 6.4 12.8

198 283.6 42.0 66.2 25.5

199 232.1 8.6 8.7 13.4

[html]view plain

#checktheshapeoftheDataFrame(rows,colums)
data.shape

查看DataFrame的形狀,注意第一列的叫索引，和資料庫某個表中的第一列類似。

(200,4)

3、分析數據

特徵：

TV：對於一個給定市場中單一產品，用於電視上的廣告費用（以千為單位）
Radio：在廣播媒體上投資的廣告費用
Newspaper：用於報紙媒體的廣告費用

響應：

Sales：對應產品的銷量

在這個案例中，我們通過不同的廣告投入，預測產品銷量。因為響應變數是一個連續的值，所以這個問題是一個回歸問題。數據集一共有200個觀測值，每一組觀測對應一個市場的情況。

注意：這里推薦使用的是seaborn包。網上說這個包的數據可視化效果比較好看。其實seaborn也應該屬於matplotlib的內部包。只是需要再次的單獨安裝。

[python]view plain

importseabornassns
importmatplotlib.pyplotasplt
#ots
sns.pairplot(data,x_vars=['TV','Radio','Newspaper'],y_vars='Sales',size=7,aspect=0.8)
plt.show()#注意必須加上這一句，否則無法顯示。

[html]view plain

這里選擇TV、Radio、Newspaper作為特徵，Sales作為觀測值

[html]view plain

返回的結果：

seaborn的pairplot函數繪制X的每一維度和對應Y的散點圖。通過設置size和aspect參數來調節顯示的大小和比例。可以從圖中看出，TV特徵和銷量是有比較強的線性關系的，而Radio和Sales線性關系弱一些，Newspaper和Sales線性關系更弱。通過加入一個參數kind='reg'，seaborn可以添加一條最佳擬合直線和95%的置信帶。

[python]view plain

sns.pairplot(data,x_vars=['TV','Radio','Newspaper'],y_vars='Sales',size=7,aspect=0.8,kind='reg')
plt.show()

結果顯示如下：

4、線性回歸模型

優點：快速；沒有調節參數；可輕易解釋；可理解。

缺點：相比其他復雜一些的模型，其預測准確率不是太高，因為它假設特徵和響應之間存在確定的線性關系，這種假設對於非線性的關系，線性回歸模型顯然不能很好的對這種數據建模。

線性模型表達式：y=β0+β1x1+β2x2+...+βnxn其中

y是響應
β0是截距
β1是x1的系數，以此類推

在這個案例中：y=β0+β1∗TV+β2∗Radio+...+βn∗Newspaper

(1)、使用pandas來構建X(特徵向量)和y(標簽列)

scikit-learn要求X是一個特徵矩陣，y是一個NumPy向量。

pandas構建在NumPy之上。

因此，X可以是pandas的DataFrame，y可以是pandas的Series，scikit-learn可以理解這種結構。

[python]view plain

#
feature_cols=['TV','Radio','Newspaper']
#
X=data[feature_cols]
#
X=data[['TV','Radio','Newspaper']]
#printthefirst5rows
printX.head()
#checkthetypeandshapeofX
printtype(X)
printX.shape

輸出結果如下：

TV Radio Newspaper

0 230.1 37.8 69.2

1 44.5 39.3 45.1

2 17.2 45.9 69.3

3 151.5 41.3 58.5

4 180.8 10.8 58.4

<class 'pandas.core.frame.DataFrame'>

(200, 3)

[python]view plain

#selectaSeriesfromtheDataFrame
y=data['Sales']
#
y=data.Sales
#printthefirst5values
printy.head()

輸出的結果如下：

0 22.1

1 10.4

2 9.3

3 18.5

4 12.9

Name: Sales

（2）、構建訓練集與測試集

[html]view plain

<prename="code"class="python"><spanstyle="font-size:14px;">##構造訓練集和測試集
fromsklearn.cross_validationimporttrain_test_split#這里是引用了交叉驗證
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)

#default split is 75% for training and 25% for testing

[html]view plain

printX_train.shape
printy_train.shape
printX_test.shape
printy_test.shape

輸出結果如下：

(150, 3)

(150,)

(50, 3)

(50,)

註：上面的結果是由train_test_spilit()得到的，但是我不知道為什麼我的版本的sklearn包中居然報錯：

ImportError Traceback (most recent call last)<ipython-input-182-3eee51fcba5a> in <mole>() 1 ###構造訓練集和測試集----> 2 from sklearn.cross_validation import train_test_split 3 #import sklearn.cross_validation 4 X_train,X_test, y_train, y_test = train_test_split(X, y, random_state=1) 5 # default split is 75% for training and 25% for testingImportError: cannot import name train_test_split

處理方法：1、我後來重新安裝sklearn包。再一次調用時就沒有錯誤了。

2、自己寫函數來認為的隨機構造訓練集和測試集。(這個代碼我會在最後附上。)

（3）sklearn的線性回歸

[html]view plain

fromsklearn.linear_modelimportLinearRegression
linreg=LinearRegression()
model=linreg.fit(X_train,y_train)
printmodel
printlinreg.intercept_
printlinreg.coef_

輸出的結果如下：

LinearRegression(_X=True, fit_intercept=True, normalize=False)

2.66816623043

[ 0.04641001 0.19272538 -0.00349015]

[html]view plain

#
zip(feature_cols,linreg.coef_)

輸出如下：

[('TV', 0.046410010869663267),

('Radio', 0.19272538367491721),

('Newspaper', -0.0034901506098328305)]

y=2.668+0.0464∗TV+0.192∗Radio-0.00349∗Newspaper
如何解釋各個特徵對應的系數的意義？

對於給定了Radio和Newspaper的廣告投入，如果在TV廣告上每多投入1個單位，對應銷量將增加0.0466個單位。就是加入其它兩個媒體投入固定，在TV廣告上每增加1000美元（因為單位是1000美元），銷量將增加46.6（因為單位是1000）。但是大家注意這里的newspaper的系數居然是負數，所以我們可以考慮不使用newspaper這個特徵。這是後話，後面會提到的。

（4）、預測

[python]view plain

y_pred=linreg.predict(X_test)
printy_pred

[python]view plain

printtype(y_pred)

輸出結果如下：

[ 14.58678373 7.92397999 16.9497993 19.35791038 7.36360284

7.35359269 16.08342325 9.3046 20.35507374 12.63160058

22.83356472 9.66291461 4.18055603 13.70368584 11.4533557

4.16940565 10.31271413 23.06786868 17.80464565 14.53070132

15.19656684 14.22969609 7.54691167 13.47210324 15.00625898

19.28532444 20.7319878 19.70408833 18.21640853 8.50112687

9.8493781 9.51425763 9.73270043 18.13782015 15.41731544

5.07416787 12.20575251 14.05507493 10.6699926 7.16006245

11.80728836 24.79748121 10.40809168 24.05228404 18.44737314

20.80572631 9.45424805 17.00481708 5.78634105 5.10594849]

<type 'numpy.ndarray'>

5、回歸問題的評價測度

(1) 評價測度

對於分類問題，評價測度是准確率，但這種方法不適用於回歸問題。我們使用針對連續數值的評價測度(evaluation metrics)。
這里介紹3種常用的針對線性回歸的測度。

1)平均絕對誤差(Mean Absolute Error, MAE)

(2)均方誤差(Mean Squared Error, MSE)

(3)均方根誤差(Root Mean Squared Error, RMSE)

這里我使用RMES。

[python]view plain

<prename="code"class="python">#計算Sales預測的RMSE
printtype(y_pred),type(y_test)
printlen(y_pred),len(y_test)
printy_pred.shape,y_test.shape
fromsklearnimportmetrics
importnumpyasnp
sum_mean=0
foriinrange(len(y_pred)):
sum_mean+=(y_pred[i]-y_test.values[i])**2
sum_erro=np.sqrt(sum_mean/50)
#calculateRMSEbyhand
print"RMSEbyhand:",sum_erro

最後的結果如下：

<type 'numpy.ndarray'> <class 'pandas.core.series.Series'>

50 50

(50,) (50,)

RMSE by hand: 1.42998147691

（2）做ROC曲線

[python]view plain

importmatplotlib.pyplotasplt
plt.figure()
plt.plot(range(len(y_pred)),y_pred,'b',label="predict")
plt.plot(range(len(y_pred)),y_test,'r',label="test")
plt.legend(loc="upperright")#顯示圖中的標簽
plt.xlabel("thenumberofsales")
plt.ylabel('valueofsales')
plt.show()

顯示結果如下：（紅色的線是真實的值曲線，藍色的是預測值曲線）

直到這里整個的一次多元線性回歸的預測就結束了。

6、改進特徵的選擇
在之前展示的數據中，我們看到Newspaper和銷量之間的線性關系竟是負關系（不用驚訝，這是隨機特徵抽樣的結果。換一批抽樣的數據就可能為正了），現在我們移除這個特徵，看看線性回歸預測的結果的RMSE如何？

依然使用我上面的代碼，但只需修改下面代碼中的一句即可：

[python]view plain

#
feature_cols=['TV','Radio','Newspaper']
#
X=data[feature_cols]
#
#X=data[['TV','Radio','Newspaper']]#只需修改這里即可<prename="code"class="python"style="font-size:15px;line-height:35px;">X=data[['TV','Radio']]#去掉newspaper其他的代碼不變

# print the first 5 rowsprint X.head()# check the type and shape of Xprint type(X)print X.shape

最後的到的系數與測度如下：

LinearRegression(_X=True, fit_intercept=True, normalize=False)

2.81843904823

[ 0.04588771 0.18721008]

RMSE by hand: 1.28208957507

然後再次使用ROC曲線來觀測曲線的整體情況。我們在將Newspaper這個特徵移除之後，得到RMSE變小了，說明Newspaper特徵可能不適合作為預測銷量的特徵，於是，我們得到了新的模型。我們還可以通過不同的特徵組合得到新的模型，看看最終的誤差是如何的。

備註：

之前我提到了這種錯誤：

註：上面的結果是由train_test_spilit()得到的，但是我不知道為什麼我的版本的sklearn包中居然報錯：

ImportError Traceback (most recent call last)<ipython-input-182-3eee51fcba5a> in <mole>() 1 ###構造訓練集和測試集----> 2 from sklearn.cross_validation import train_test_split 3 #import sklearn.cross_validation 4 X_train,X_test, y_train, y_test = train_test_split(X, y, random_state=1) 5 # default split is 75% for training and 25% for testingImportError: cannot import name train_test_split

處理方法：1、我後來重新安裝sklearn包。再一次調用時就沒有錯誤了。

2、自己寫函數來認為的隨機構造訓練集和測試集。(這個代碼我會在最後附上。)

這里我給出我自己寫的函數：

10. python 有沒有對信號進行升采樣的方法，從1000點序列數據轉成10000點數據

這個裡面他的話這個是可以進行進行采樣的方法，然後再從他的點訓練數據中轉換乘1000點的話，它都是裡面是轉化的，數據比較多，所以所以的話工程量比較大。

導航:首頁 > 編程語言 > python抽樣函數

python抽樣函數

與python抽樣函數相關的資料