python中pct_怎麼用python計算股票

① 缺失值處理

缺失數據

1 缺失值的統計和刪除

1.1 缺失信息的統計

缺失數據可以使用 isna 或 isnull （兩個函數沒有區別）來查看每個單元格是否缺失，通過和 sum 的組合可以計算出每列缺失值的比例。

如果想要查看某一列缺失或者非缺失的行，可以利用 Series 上的 isna 或者 notna 進行布爾索引。例如，查看身高缺失的行：

如果想要同時對幾個列，檢索出全部為缺失或者至少有一個缺失或者沒有缺失的行，可以使用 isna, notna 和any, all 的組合。例如，對身高、體重和轉系情況這 3 列分別進行這三種情況的檢索

1.2 缺失信息的刪除

數據處理中經常需要根據缺失值的大小、比例或其他特徵來進行行樣本或列特徵的刪除，pandas 中提供了dropna 函數來進行操作。

dropna 的主要參數為軸方向 axis （默認為 0，即刪除行）、刪除方式 how 、刪除的非缺失值個數閾值 thresh（非缺失值沒有達到這個數量的相應維度會被刪除）、備選的刪除子集 subset ，其中 how 主要有 any 和 all兩種參數可以選擇。

2 缺失值的填充和插值

2.1 利用 fillna 進行填充

在 fillna 中有三個參數是常用的：value, method, limit 。其中，value 為填充值，可以是標量，也可以是索引到元素的字典映射；method 為填充方法，有用前面的元素填充 ffill 和用後面的元素填充 bfill 兩種類型，limit 參數表示連續缺失值的最大填充次數。

2.2 插值函數

在關於 interpolate 函數的文檔描述中，列舉了許多插值法，包括了大量 Scipy 中的方法。由於很多插值方法涉及到比較復雜的數學知識，因此這里只討論比較常用且簡單的三類情況，即線性插值、最近鄰插值和索引插值。

對於 interpolate 而言，除了插值方法（默認為 linear 線性插值）之外，有與 fillna 類似的兩個常用參數，一個是控制方向的 limit_direction ，另一個是控制最大連續缺失值插值個數的 limit 。其中，限制插值的方向默認為 forward ，這與 fillna 的 method 中的 ffill 是類似的，若想要後向限制插值或者雙向限制插值可以指定為 backward 或 both

關於 polynomial 和 spline 插值的注意事項

在 interpolate 中如果選用 polynomial 的插值方法，它內部調用的是scipy.interpolate.interp1d(*,*,kind=order) ，這個函數內部調用的是 make_interp_spline方法，因此其實是樣條插值而不是類似於 numpy 中的 polyfit 多項式擬合插值；而當選用 spline方法時，pandas 調用的是 scipy.interpolate.UnivariateSpline 而不是普通的樣條插值。這一部分的文檔描述比較混亂，而且這種參數的設計也是不合理的，當使用這兩類插值方法時，用戶一定要小心謹慎地根據自己的實際需求選取恰當的插值方法。

3 Nullable 類型

3.1 缺失記號及其缺陷

在 python 中的缺失值用 None 表示，該元素除了等於自己本身之外，與其他任何元素不相等：

在 numpy 中利用 np.nan 來表示缺失值，該元素除了不和其他任何元素相等之外，和自身的比較結果也返回False

值得注意的是，雖然在對缺失序列或表格的元素進行比較操作的時候，np.nan 的對應位置會返回 False ，但是在使用 equals 函數進行兩張表或兩個序列的相同性檢驗時，會自動跳過兩側表都是缺失值的位置，直接返回 True ：

在時間序列的對象中，pandas 利用 pd.NaT 來指代缺失值，它的作用和 np.nan 是一致的

那麼為什麼要引入 pd.NaT 來表示時間對象中的缺失呢？仍然以 np.nan 的形式存放會有什麼問題？在 pandas中可以看到 object 類型的對象，而 object 是一種混雜對象類型，如果出現了多個類型的元素同時存儲在 Series中，它的類型就會變成 object

NaT 問題的根源來自於 np.nan 的本身是一種浮點類型，而如果浮點和時間類型混合存儲，如果不設計新的內置缺失類型來處理，就會變成含糊不清的 object 類型，這顯然是不希望看到的。

同時，由於 np.nan 的浮點性質，如果在一個整數的 Series 中出現缺失，那麼其類型會轉變為 float64 ；而如果在一個布爾類型的序列中出現缺失，那麼其類型就會轉為 object 而不是 bool

因此，在進入 1.0.0 版本後，pandas 嘗試設計了一種新的缺失類型 pd.NA 以及三種 Nullable 序列類型來應對這些缺陷，它們分別是 Int, boolean 和 string 。

3.2 Nullable 類型的性質

從字面意義上看 Nullable 就是可空的，言下之意就是序列類型不受缺失值的影響。例如，在上述三個 Nullable類型中存儲缺失值，都會轉為 pandas 內置的 pd.NA

在 Int 的序列中，返回的結果會盡可能地成為 Nullable 的類型

對於 boolean 類型的序列而言，其和 bool 序列的行為主要有兩點區別：

第一點是帶有缺失的布爾列表無法進行索引器中的選擇，而 boolean 會把缺失值看作 False

第二點是在進行邏輯運算時，bool 類型在缺失處返回的永遠是 False ，而 boolean 會根據邏輯運算是否能確定唯一結果來返回相應的值。那什麼叫能否確定唯一結果呢？舉個簡單例子：True | pd.NA 中無論缺失值為什麼值，必然返回 True ；False | pd.NA 中的結果會根據缺失值取值的不同而變化，此時返回 pd.NA ；False& pd.NA 中無論缺失值為什麼值，必然返回 False 。

3.3 缺失數據的計算和分組

當調用函數 sum, prob 使用加法和乘法的時候，缺失數據等價於被分別視作 0 和 1，即不改變原來的計算結果

當使用累計函數時，會自動跳過缺失值所處的位置：

當進行單個標量運算的時候，除了 np.nan ** 0 和 1 ** np.nan 這兩種情況為確定的值之外，所有運算結果全為缺失（pd.NA 的行為與此一致），並且 np.nan 在比較操作時一定返回 False ，而 pd.NA 返回 pd.NA

另外需要注意的是，diff, pct_change 這兩個函數雖然功能相似，但是對於缺失的處理不同，前者凡是參與缺失計算的部分全部設為了缺失值，而後者缺失值位置會被設為 0% 的變化率

對於一些函數而言，缺失可以作為一個類別處理，例如在 groupby, get_mmies 中可以設置相應的參數來進行增加缺失類別：

4 練習

4.1 Ex1：缺失值與類別的相關性檢驗

.4.2 Ex2：用回歸模型解決分類問題

② 怎麼用python計算股票

作為一個python新手，在學習中遇到很多問題，要善於運用各種方法。今天，在學習中，碰到了如何通過收盤價計算股票的漲跌幅。
第一種：
讀取數據並建立函數：
import numpy as np
import matplotlib.pyplot as plt
from scipy.interpolate import spline
from pylab import *
import pandas as pd
from pandas import Series
a=pd.read_csv('d:///1.csv',sep=',')#文件位置

t=a['close']
def f(t):
s=[]
for i in range(1,len(t)):
if i==1:
continue
else:
s.append((t[i]-t[i-1])/t[i]*100)
print s
plot(s)

plt.show()
f(t)
第二種：
利用pandas裡面的方法：
import pandas as pd

a=pd.read_csv('d:///1.csv')
rets = a['close'].pct_change() * 100
print rets

第三種：
close=a['close']
rets=close/close.shift(1)-1
print rets

總結：python是一種非常好的編程語言，一般而言，我們可以運用構建相關函數來實現自己的思想，但是，眾所周知，python中裡面的有很多科學計算包，裡面有很多方法可以快速解決計算的需要，如上面提到的pandas中的pct_change()。因此在平時的使用中應當學會尋找更好的方法，提高運算速度。

③ python中時間序列數據的一些處理方式

datetime.timedelta對象代表兩個時間之間的時間差，兩個date或datetime對象相減就可以返回一個timedelta對象。
利用以下數據進行說明：

如果我們發現時間相關內容的變數為int,float,str等類型，不方便後面的分析，就需要使用該函數轉化為常用的時間變數格式：pandas.to_datetime

轉換得到的時間單位如下：

如果時間序列格式不統一，pd.to_datetime()的處理方式：

當然，正確的轉換是這樣的：

第一步：to_datetime()
第二步：astype(datetime64[D]),astype(datetime64[M])

本例中：

order_dt_diff必須是Timedelta(Ɔ days 00:00:00')格式，可能是序列使用了diff()
或者pct_change()。

前者往往要通過'/np.timedelta'去掉單位days。後者其實沒有單位。

假如我們要統計某共享單車一天內不同時間點的用戶使用數據，例如

還有其他維度的提取，年、月、日、周，參見：
Datetime properties

注意：.dt的對象必須為pandas.Series,而不可以是Series中的單個元素

導航:首頁 > 編程語言 > python中pct

python中pct

與python中pct相關的資料