導航:首頁 > 編程語言 > python非缺失值怎麼獲取

python非缺失值怎麼獲取

發布時間:2023-08-06 08:11:17

python數據處理:篩選、統計、連表、拼接、拆分、缺失值處理

file1_path ='E:/Users/lenovo/Desktop/中視/622召回.csv' # 源數據

格式:file1=pd.read_csv(file1_path)

pd.read_csv(file1_path,encoding='gbk')

pd.read_csv(file1_path,encoding='gbk',skiprows=[2,3])

pd.read_csv(file1_path,encoding='gbk',skiprows=lambda x:x%2==1)

pd.read_csv(file1_path,encoding='gbk',keep_default_na=False)

new=pd.DataFrame()

new.new[[0,1,2]]

new.new[0:2]

查詢結果同上

new.loc[new['激活數']>1000]

loc和iloc的區別:

     loc:純標簽篩選

     iloc:純數字篩選

#篩選出new的某兩列

new=new.loc[:,['phone','收件人姓名']]

#篩選new的第0,1列

new.iloc[:,[0,1]]

使用『==』篩選-篩查「崔旭」的人(只能篩查指定明確的)

#new=file1.loc[(file1['收件人姓名']=='崔旭')|(file1['收件人姓名']=='崔霞')]

#print(new)

#使用loc函數篩選-str.contains函數-篩查名字中包含'亮'和'海'的人

#new=file1.loc[file1['收件人姓名'].str.contains('亮|海')]

#print(new)

#使用loc函數篩選-str.contains函數-篩查'崔'姓的人

#new=file1.loc[file1['收件人姓名'].str.startswitch('崔')]

#print(new)

df = df[(df['DEPOSIT_PAY_TIME_x'] .notnull() ) & (df['DEPOSIT_PAY_TIME_x'] != "" )]

print("ring_time(number)=0的個數:",newdata[newdata['ring_time(number)'] ==0].count()['ring_time(number)'])

print("ring_time(number)=1,2,3的個數:",newdata[(newdata['ring_time(number)'] >0) & (newdata['ring_time(number)'] <4)].count()['ring_time(number)'])

print(newdata[newdata['ring_time(number)'] ==0])

newdata[newdata['Team']. isin (['England','Italy','Russia'])][['Team','Shooting Accuracy']]

df.年齡.value_counts()

1.修改指定位置數據的值(修改第0行,』創建訂單數『列的值為3836)

new.loc[0,'創建訂單數']=3836

2.替換『小明』-『xiaoming』

df.replace({'name':{'小明':'xiaoming'}})

3.批量替換某一列的值(把『性別』列里的男-male,女-felmale)

方法一:df['性別']=df['性別'].map({'男':'male','女':'female'})

方法二:df['性別'].replace('female','女',inplace=True)

               或df['性別']=df['性別'].replace('female','女')                這就是inplace的作用

                +df['性別'].replace('male','男',inplace=True)

4.替換列索引

df.columns=['sex','name','height','age']

或者:df.rename(columns={'性別':'sex','姓名':'name','身高':'height','年齡':'age'})

5.刪除某一列

del df['player']

6. 刪除某一列(方法二),刪除某一行(默認axis=0刪除行,為1則刪除列)

刪除某一列(方法二)

df.drop('性別',axis=1)

刪除某一行

df.drop(1,axis=0)

file1=pd.read_csv(file1_path)

file2=pd.read_csv(file2_path)

new1=pd.DataFrame()

new1['phone']=file1['phone']

new1['contact_time']=file1['contact_time']

new2=pd.DataFrame()

new2['phone']=file2['phone']

new2['submission_audit_time']=file2['提交審核時間']

newdata=pd.merge(new1,new2,on='phone',how='left')

df=pd.concat([df1,df2],axis=0)

4.2.2 橫向表連接

df=pd.concat([df1,df2],axis=1)

df1['地區'].str.split('·',3,expand=True)

df1:

df1[['城市', '城區','地址']] = df1['地區'].str.split('·', 3, expand = True)

5.1 缺失值刪除

data.dropna(axis=0,subset = ["Age", "Sex"])   # 丟棄『Age』和『Sex』這兩列中有缺失值的行

data.dropna(how = 'all')    # 傳入這個參數後將只丟棄全為缺失值的那些行

data.dropna(axis = 1)       # 丟棄有缺失值的列(一般不會這么做,這樣會刪掉一個特徵)

data.dropna(axis=1,how="all")   # 丟棄全為缺失值的那些列

5.2 缺失值填充:pandas.DataFrame.fillna()函數

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

功能:使用指定方法填充NA/NaN值

其中inplace=True就是直接在原有基礎上填滿

5.3 缺失值查詢:

缺失值數量查詢:df.isnull().sum()

缺失值行查詢:df[df.isnull().T.any()]

newdata['ring_time']=pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])

newdata['ring_time(number)']=(pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])).apply(lambda x: x.days)

new=pd.DataFrame()

new=newdata[newdata['ring_time(number)'] ==0]

new.to_csv(save_path,encoding='utf-8-sig')

將數據按行拆分並存儲到不同的csv文件中:

path='C:/Users/EDZ/Desktop/工作/2021.08.19/'

for i in range(0,30):

    df.loc[[i]].to_csv(path+str(i)+'.csv',encoding='gbk')

df = df[['購葯日期', '星期','社保卡號','商品編碼', '商品名稱', '銷售數量', '應收金額', '實收金額' ]]

㈡ python怎麼取出字典中的值並進行計算

在Python中,可以使用字典的鍵來獲取相應的值,並進行計算。下面是一個簡頌鉛察單的示例,演示了如何從字典中獲取值並進行相加計算:
# 定義一個字典,包含三個鍵值對
my_dict = {'a': 10, 'b': 20, 'c': 30}

# 從字典中獲取相應的值,並進行計算
result = my_dict['a'] + my_dict['b'] + my_dict['c']

# 輸出計算結果
print('計算結果為:', result)

運行上述代碼會輸出:計算結果為: 60,說明程序成功地從字典中獲取了相應的值,並進行了計算。
需要注意的是,在從字典中獲取值時,如果指定的鍵不存在,程序會拋出 KeyError 異常。為了避免這種情況,可激銀以使用 get() 方法獲野茄取值,如果指定的鍵不存在,該方法會返回 None 或指定的默認值,而不是拋出異常。下面是一個使用 get() 方法的示例:
# 定義一個字典,包含三個鍵值對
my_dict = {'a': 10, 'b': 20, 'c': 30}

# 從字典中獲取相應的值,並進行計算
result = my_dict.get('a', 0) + my_dict.get('b', 0) + my_dict.get('d', 0)

# 輸出計算結果
print('計算結果為:', result)

在上述代碼中,get() 方法的第二個參數指定了默認值,如果指定的鍵不存在,則返回0。這樣,即使字典中沒有鍵為 d 的項,程序也不會拋出異常,而是將其值視為0進行計算。

㈢ python檢查是否有缺失值

統計data里每一列是否有空值:

data.isnull().any()

統計data里每一列空值的個數:

data.isnull().any().sum()

但是有的時候,明明有空值卻統計不出來。

最近我遇到的數據,空值的填充是null,這個需要轉化一下才可以用上面的函數。

data=data.replace('null',np.NaN)

然後你再繼續用data.isnull().any(),ata.isnull().any().sum()就沒問題了。

如果這么做,你的問題還沒解決,查看你的缺失值的填充是什麼,用np.NaN替代。、

另外的方法:

np.any(np.isnan(data))

np.all(np.isfinite(data))

㈣ 缺失值處理

 缺失數據 

1 缺失值的統計和刪除 

1.1 缺失信息的統計

缺失數據可以使用 isna 或 isnull (兩個函數沒有區別)來查看每個單元格是否缺失,通過和 sum 的組合可以計算出每列缺失值的比例。

如果想要查看某一列缺失或者非缺失的行,可以利用 Series 上的 isna 或者 notna 進行布爾索引。例如,查看身高缺失的行:

如果想要同時對幾個列,檢索出全部為缺失或者至少有一個缺失或者沒有缺失的行,可以使用 isna, notna 和any, all 的組合。例如,對身高、體重和轉系情況這 3 列分別進行這三種情況的檢索

1.2 缺失信息的刪除

數據處理中經常需要根據缺失值的大小、比例或其他特徵來進行行樣本或列特徵的刪除,pandas 中提供了dropna 函數來進行操作。

dropna 的主要參數為軸方向 axis (默認為 0,即刪除行)、刪除方式 how 、刪除的非缺失值個數閾值 thresh(非缺失值沒有達到這個數量的相應維度會被刪除)、備選的刪除子集 subset ,其中 how 主要有 any 和 all兩種參數可以選擇。

2 缺失值的填充和插值 

2.1 利用 fillna 進行填充 

在 fillna 中有三個參數是常用的:value, method, limit 。其中,value 為填充值,可以是標量,也可以是索引到元素的字典映射;method 為填充方法,有用前面的元素填充 ffill 和用後面的元素填充 bfill 兩種類型,limit 參數表示連續缺失值的最大填充次數。

2.2 插值函數 

在關於 interpolate 函數的 文檔 描述中,列舉了許多插值法,包括了大量 Scipy 中的方法。由於很多插值方法涉及到比較復雜的數學知識,因此這里只討論比較常用且簡單的三類情況,即線性插值、最近鄰插值和索引插值。

對於 interpolate 而言,除了插值方法(默認為 linear 線性插值)之外,有與 fillna 類似的兩個常用參數,一個是控制方向的 limit_direction ,另一個是控制最大連續缺失值插值個數的 limit 。其中,限制插值的方向默認為 forward ,這與 fillna 的 method 中的 ffill 是類似的,若想要後向限制插值或者雙向限制插值可以指定為 backward 或 both

關於 polynomial 和 spline 插值的注意事項

在 interpolate 中 如 果 選 用 polynomial 的 插 值 方 法, 它 內 部 調 用 的 是scipy.interpolate.interp1d(*,*,kind=order) , 這 個 函 數 內 部 調 用 的 是 make_interp_spline方法,因此其實是樣條插值而不是類似於 numpy 中的 polyfit 多項式擬合插值;而當選用 spline方法時,pandas 調用的是 scipy.interpolate.UnivariateSpline 而不是普通的樣條插值。這一部分的文檔描述比較混亂,而且這種參數的設計也是不合理的,當使用這兩類插值方法時,用戶一定要小心謹慎地根據自己的實際需求選取恰當的插值方法。

3 Nullable 類型

3.1 缺失記號及其缺陷

在 python 中的缺失值用 None 表示,該元素除了等於自己本身之外,與其他任何元素不相等:

在 numpy 中利用 np.nan 來表示缺失值,該元素除了不和其他任何元素相等之外,和自身的比較結果也返回False

值得注意的是,雖然在對缺失序列或表格的元素進行比較操作的時候,np.nan 的對應位置會返回 False ,但是在使用 equals 函數進行兩張表或兩個序列的相同性檢驗時,會自動跳過兩側表都是缺失值的位置,直接返回 True :

在時間序列的對象中,pandas 利用 pd.NaT 來指代缺失值,它的作用和 np.nan 是一致的

那麼為什麼要引入 pd.NaT 來表示時間對象中的缺失呢?仍然以 np.nan 的形式存放會有什麼問題?在 pandas中可以看到 object 類型的對象,而 object 是一種混雜對象類型,如果出現了多個類型的元素同時存儲在 Series中,它的類型就會變成 object

NaT 問題的根源來自於 np.nan 的本身是一種浮點類型,而如果浮點和時間類型混合存儲,如果不設計新的內置缺失類型來處理,就會變成含糊不清的 object 類型,這顯然是不希望看到的。

同時,由於 np.nan 的浮點性質,如果在一個整數的 Series 中出現缺失,那麼其類型會轉變為 float64 ;而如果在一個布爾類型的序列中出現缺失,那麼其類型就會轉為 object 而不是 bool

因此,在進入 1.0.0 版本後,pandas 嘗試設計了一種新的缺失類型 pd.NA 以及三種 Nullable 序列類型來應對這些缺陷,它們分別是 Int, boolean 和 string 。

3.2 Nullable 類型的性質

從字面意義上看 Nullable 就是可空的,言下之意就是序列類型不受缺失值的影響。例如,在上述三個 Nullable類型中存儲缺失值,都會轉為 pandas 內置的 pd.NA

在 Int 的序列中,返回的結果會盡可能地成為 Nullable 的類型

對於 boolean 類型的序列而言,其和 bool 序列的行為主要有兩點區別:

第一點是帶有缺失的布爾列表無法進行索引器中的選擇,而 boolean 會把缺失值看作 False

第二點是在進行邏輯運算時,bool 類型在缺失處返回的永遠是 False ,而 boolean 會根據邏輯運算是否能確定唯一結果來返回相應的值。那什麼叫能否確定唯一結果呢?舉個簡單例子:True | pd.NA 中無論缺失值為什麼值,必然返回 True ;False | pd.NA 中的結果會根據缺失值取值的不同而變化,此時返回 pd.NA ;False& pd.NA 中無論缺失值為什麼值,必然返回 False 。

3.3 缺失數據的計算和分組

當調用函數 sum, prob 使用加法和乘法的時候,缺失數據等價於被分別視作 0 和 1,即不改變原來的計算結果

當使用累計函數時,會自動跳過缺失值所處的位置:

當進行單個標量運算的時候,除了 np.nan ** 0 和 1 ** np.nan 這兩種情況為確定的值之外,所有運算結果全為缺失(pd.NA 的行為與此一致),並且 np.nan 在比較操作時一定返回 False ,而 pd.NA 返回 pd.NA

另外需要注意的是,diff, pct_change 這兩個函數雖然功能相似,但是對於缺失的處理不同,前者凡是參與缺失計算的部分全部設為了缺失值,而後者缺失值位置會被設為 0% 的變化率

對於一些函數而言,缺失可以作為一個類別處理,例如在 groupby, get_mmies 中可以設置相應的參數來進行增加缺失類別:

4 練習 

4.1 Ex1:缺失值與類別的相關性檢驗

.4.2 Ex2:用回歸模型解決分類問題

㈤ Python 不知道list裡面有多少個元素 怎麼提取出來

# 獲取到症狀

item['symptons'] = li.xpath('div/p/a/text()').extract()

#從列表中取出元素,

str=''

for s in item['symptons']:

str=str+s+' '

item['symptons']=str

print('#############')

print(item['symptons'])

(5)python非缺失值怎麼獲取擴展閱讀

序列是Python中最基本的數據結構。序列中的每個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推。

Python有6個序列的內置類型,但最常見的是列表和元組。

序列都可以進行的操作包括索引,切片,加,乘,檢查成員。

此外,Python已經內置確定序列的長度以及確定最大和最小的元素的方法。

列表是最常用的Python數據類型,它可以作為一個方括弧內的逗號分隔值出現。

列表的數據項不需要具有相同的類型

創建一個列表,只要把逗號分隔的不同的數據項使用方括弧括起來即可。如下所示:

list1 = ['physics', 'chemistry', 1997, 2000]

list2 = [1, 2, 3, 4, 5 ]list3 = ["a", "b", "c", "d"]

㈥ python數據分析使用的數據

1、對數據進行排序df.sort_values()
#讀取數據
titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandas itanic_train.csv")
#用sort_values()函數對指定列排序,默認升序排序,inplace=True表示在原來的df上排序titanic_survival.sort_values(("Age"),inplace=Tru
2、缺失值判斷及統計pandas.isnull()、pandas.isnull
空值統計方法一:df.isnull().sum():
#當不指定具體列時,統計整個df的缺失值個數
titanic_survival['Age'].isnull().sum()
通過len()函數統計缺失值
3、缺失值處理
處理缺失值可以分為兩類:刪除缺失值和缺失值插補。而缺失值插補又分為以下幾種:
均值/中位數/眾數插補
使用固定值(將缺失值的屬性用一個常量代替)
最近鄰插補(在記錄中找到與缺失值樣本最接近的樣本的該屬性插補)
回歸方法(對帶有缺失值的變數,根據已有數據和與其有關的其他變數建立擬合模型來預測缺失值)
插值法(利用已知點建立合適的插值函數f(x),未知值由對應點xi求出來近似代替)
下面,我們主要討論刪除缺失值,學習一些pandas缺失值刪除的操作。
1)df.dropna(),舍棄含有任意缺失值的行
#等價於titanic_survival.dropna(axis=0) axis=0表示刪除行,axis=1表示刪除列
dropall=titanic_survival.dropna()
刪除含任意空值的行
2)df.dropna()函數刪除某個列中含有空值的行
現在這個數據中age、cabin、embarked都有缺失值,如果我們直接使用df.dropna()會刪除掉這三列中都有空值的所有行,但是我們希望只刪除age列中有空值的數據,那該如何處理呢?
直接使用df.dropna(subset=['column_list'])
drop_age_null=titanic_survival.dropna(subset=["Age"])
刪除指定列中含有缺失值的行
pandas自定義函數

㈦ Python beautifulsoup 獲取標簽中的值 怎麼獲取

age = soup.find(attrs={"class":"age"}) #你這里find只要一個attrs參數不會報錯。

if age == None: #簡單點可以用 if not age:

print u'沒有找到'

else:

soup.find(attrs={"class":"name"})

#否則用findAll找出所有具有這個class的tr

tr = html.find("tr", attrs={"class":"show_name"})

tds = tr.findAll("td")

for td in tds:

print td.string # 或許不是string屬性,你可以用dir(td)看看有哪些可用的。



(7)python非缺失值怎麼獲取擴展閱讀:

1、如果是函數定義中參數前的*表示的是將調用時的多個參數放入元組中,**則表示將調用函數時的關鍵字參數放入一個字典中。

1)如定義以下函數:

def func(*args):print(args)

當用func(1,2,3)調用函數時,參數args就是元組(1,2,3)

2)如定義以下函數:

def func(**args):print(args)

當用func(a=1,b=2)調用函數時,參數args將會是字典{'a':1,'b':2}

學python的同時一定會接觸到其他技術,畢竟光會python這門語言是不夠的,要看用它來做什麼。比如說用 python做爬蟲,就必須接觸到html, http等知識。

python是現在最火的數據分析工具語言python的進階的路線是數據清洗,爬蟲,數據容器,之後是卷積,線性分析,和機器學習,區塊連,金融方面的量化等高端進階。

閱讀全文

與python非缺失值怎麼獲取相關的資料

熱點內容
加密篦子怎麼製造視頻 瀏覽:901
電腦主伺服器未運行怎麼解決 瀏覽:328
js超級瑪麗源碼 瀏覽:308
雲鏡下載什麼格式app 瀏覽:765
iosAndroidjava 瀏覽:402
外賣員轉型做程序員 瀏覽:927
看房用什麼app准 瀏覽:157
雞蛋解壓玩具測評 瀏覽:705
阿里雲發布arm伺服器晶元 瀏覽:756
對加密貨幣平台的態度 瀏覽:373
刺客信條pdf 瀏覽:453
湛江頭條程序員 瀏覽:162
裝上加密狗就死機 瀏覽:927
windows程序員轉linux 瀏覽:570
androidusb驅動xp 瀏覽:947
單片機的數字電壓表設計 瀏覽:792
成功連接伺服器是什麼意思 瀏覽:892
如何審定伺服器訪問許可權 瀏覽:687
姜梓童陳一鳴程序員 瀏覽:921
青島程序員駐場開發哪家好 瀏覽:474