导航:首页 > 编程语言 > python非缺失值怎么获取

python非缺失值怎么获取

发布时间:2023-08-06 08:11:17

python数据处理:筛选、统计、连表、拼接、拆分、缺失值处理

file1_path ='E:/Users/lenovo/Desktop/中视/622召回.csv' # 源数据

格式:file1=pd.read_csv(file1_path)

pd.read_csv(file1_path,encoding='gbk')

pd.read_csv(file1_path,encoding='gbk',skiprows=[2,3])

pd.read_csv(file1_path,encoding='gbk',skiprows=lambda x:x%2==1)

pd.read_csv(file1_path,encoding='gbk',keep_default_na=False)

new=pd.DataFrame()

new.new[[0,1,2]]

new.new[0:2]

查询结果同上

new.loc[new['激活数']>1000]

loc和iloc的区别:

     loc:纯标签筛选

     iloc:纯数字筛选

#筛选出new的某两列

new=new.loc[:,['phone','收件人姓名']]

#筛选new的第0,1列

new.iloc[:,[0,1]]

使用‘==’筛选-筛查“崔旭”的人(只能筛查指定明确的)

#new=file1.loc[(file1['收件人姓名']=='崔旭')|(file1['收件人姓名']=='崔霞')]

#print(new)

#使用loc函数筛选-str.contains函数-筛查名字中包含'亮'和'海'的人

#new=file1.loc[file1['收件人姓名'].str.contains('亮|海')]

#print(new)

#使用loc函数筛选-str.contains函数-筛查'崔'姓的人

#new=file1.loc[file1['收件人姓名'].str.startswitch('崔')]

#print(new)

df = df[(df['DEPOSIT_PAY_TIME_x'] .notnull() ) & (df['DEPOSIT_PAY_TIME_x'] != "" )]

print("ring_time(number)=0的个数:",newdata[newdata['ring_time(number)'] ==0].count()['ring_time(number)'])

print("ring_time(number)=1,2,3的个数:",newdata[(newdata['ring_time(number)'] >0) & (newdata['ring_time(number)'] <4)].count()['ring_time(number)'])

print(newdata[newdata['ring_time(number)'] ==0])

newdata[newdata['Team']. isin (['England','Italy','Russia'])][['Team','Shooting Accuracy']]

df.年龄.value_counts()

1.修改指定位置数据的值(修改第0行,’创建订单数‘列的值为3836)

new.loc[0,'创建订单数']=3836

2.替换‘小明’-‘xiaoming’

df.replace({'name':{'小明':'xiaoming'}})

3.批量替换某一列的值(把‘性别’列里的男-male,女-felmale)

方法一:df['性别']=df['性别'].map({'男':'male','女':'female'})

方法二:df['性别'].replace('female','女',inplace=True)

               或df['性别']=df['性别'].replace('female','女')                这就是inplace的作用

                +df['性别'].replace('male','男',inplace=True)

4.替换列索引

df.columns=['sex','name','height','age']

或者:df.rename(columns={'性别':'sex','姓名':'name','身高':'height','年龄':'age'})

5.删除某一列

del df['player']

6. 删除某一列(方法二),删除某一行(默认axis=0删除行,为1则删除列)

删除某一列(方法二)

df.drop('性别',axis=1)

删除某一行

df.drop(1,axis=0)

file1=pd.read_csv(file1_path)

file2=pd.read_csv(file2_path)

new1=pd.DataFrame()

new1['phone']=file1['phone']

new1['contact_time']=file1['contact_time']

new2=pd.DataFrame()

new2['phone']=file2['phone']

new2['submission_audit_time']=file2['提交审核时间']

newdata=pd.merge(new1,new2,on='phone',how='left')

df=pd.concat([df1,df2],axis=0)

4.2.2 横向表连接

df=pd.concat([df1,df2],axis=1)

df1['地区'].str.split('·',3,expand=True)

df1:

df1[['城市', '城区','地址']] = df1['地区'].str.split('·', 3, expand = True)

5.1 缺失值删除

data.dropna(axis=0,subset = ["Age", "Sex"])   # 丢弃‘Age’和‘Sex’这两列中有缺失值的行

data.dropna(how = 'all')    # 传入这个参数后将只丢弃全为缺失值的那些行

data.dropna(axis = 1)       # 丢弃有缺失值的列(一般不会这么做,这样会删掉一个特征)

data.dropna(axis=1,how="all")   # 丢弃全为缺失值的那些列

5.2 缺失值填充:pandas.DataFrame.fillna()函数

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

功能:使用指定方法填充NA/NaN值

其中inplace=True就是直接在原有基础上填满

5.3 缺失值查询:

缺失值数量查询:df.isnull().sum()

缺失值行查询:df[df.isnull().T.any()]

newdata['ring_time']=pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])

newdata['ring_time(number)']=(pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])).apply(lambda x: x.days)

new=pd.DataFrame()

new=newdata[newdata['ring_time(number)'] ==0]

new.to_csv(save_path,encoding='utf-8-sig')

将数据按行拆分并存储到不同的csv文件中:

path='C:/Users/EDZ/Desktop/工作/2021.08.19/'

for i in range(0,30):

    df.loc[[i]].to_csv(path+str(i)+'.csv',encoding='gbk')

df = df[['购药日期', '星期','社保卡号','商品编码', '商品名称', '销售数量', '应收金额', '实收金额' ]]

㈡ python怎么取出字典中的值并进行计算

在Python中,可以使用字典的键来获取相应的值,并进行计算。下面是一个简颂铅察单的示例,演示了如何从字典中获取值并进行相加计算:
# 定义一个字典,包含三个键值对
my_dict = {'a': 10, 'b': 20, 'c': 30}

# 从字典中获取相应的值,并进行计算
result = my_dict['a'] + my_dict['b'] + my_dict['c']

# 输出计算结果
print('计算结果为:', result)

运行上述代码会输出:计算结果为: 60,说明程序成功地从字典中获取了相应的值,并进行了计算。
需要注意的是,在从字典中获取值时,如果指定的键不存在,程序会抛出 KeyError 异常。为了避免这种情况,可激银以使用 get() 方法获野茄取值,如果指定的键不存在,该方法会返回 None 或指定的默认值,而不是抛出异常。下面是一个使用 get() 方法的示例:
# 定义一个字典,包含三个键值对
my_dict = {'a': 10, 'b': 20, 'c': 30}

# 从字典中获取相应的值,并进行计算
result = my_dict.get('a', 0) + my_dict.get('b', 0) + my_dict.get('d', 0)

# 输出计算结果
print('计算结果为:', result)

在上述代码中,get() 方法的第二个参数指定了默认值,如果指定的键不存在,则返回0。这样,即使字典中没有键为 d 的项,程序也不会抛出异常,而是将其值视为0进行计算。

㈢ python检查是否有缺失值

统计data里每一列是否有空值:

data.isnull().any()

统计data里每一列空值的个数:

data.isnull().any().sum()

但是有的时候,明明有空值却统计不出来。

最近我遇到的数据,空值的填充是null,这个需要转化一下才可以用上面的函数。

data=data.replace('null',np.NaN)

然后你再继续用data.isnull().any(),ata.isnull().any().sum()就没问题了。

如果这么做,你的问题还没解决,查看你的缺失值的填充是什么,用np.NaN替代。、

另外的方法:

np.any(np.isnan(data))

np.all(np.isfinite(data))

㈣ 缺失值处理

 缺失数据 

1 缺失值的统计和删除 

1.1 缺失信息的统计

缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,通过和 sum 的组合可以计算出每列缺失值的比例。

如果想要查看某一列缺失或者非缺失的行,可以利用 Series 上的 isna 或者 notna 进行布尔索引。例如,查看身高缺失的行:

如果想要同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行,可以使用 isna, notna 和any, all 的组合。例如,对身高、体重和转系情况这 3 列分别进行这三种情况的检索

1.2 缺失信息的删除

数据处理中经常需要根据缺失值的大小、比例或其他特征来进行行样本或列特征的删除,pandas 中提供了dropna 函数来进行操作。

dropna 的主要参数为轴方向 axis (默认为 0,即删除行)、删除方式 how 、删除的非缺失值个数阈值 thresh(非缺失值没有达到这个数量的相应维度会被删除)、备选的删除子集 subset ,其中 how 主要有 any 和 all两种参数可以选择。

2 缺失值的填充和插值 

2.1 利用 fillna 进行填充 

在 fillna 中有三个参数是常用的:value, method, limit 。其中,value 为填充值,可以是标量,也可以是索引到元素的字典映射;method 为填充方法,有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型,limit 参数表示连续缺失值的最大填充次数。

2.2 插值函数 

在关于 interpolate 函数的 文档 描述中,列举了许多插值法,包括了大量 Scipy 中的方法。由于很多插值方法涉及到比较复杂的数学知识,因此这里只讨论比较常用且简单的三类情况,即线性插值、最近邻插值和索引插值。

对于 interpolate 而言,除了插值方法(默认为 linear 线性插值)之外,有与 fillna 类似的两个常用参数,一个是控制方向的 limit_direction ,另一个是控制最大连续缺失值插值个数的 limit 。其中,限制插值的方向默认为 forward ,这与 fillna 的 method 中的 ffill 是类似的,若想要后向限制插值或者双向限制插值可以指定为 backward 或 both

关于 polynomial 和 spline 插值的注意事项

在 interpolate 中 如 果 选 用 polynomial 的 插 值 方 法, 它 内 部 调 用 的 是scipy.interpolate.interp1d(*,*,kind=order) , 这 个 函 数 内 部 调 用 的 是 make_interp_spline方法,因此其实是样条插值而不是类似于 numpy 中的 polyfit 多项式拟合插值;而当选用 spline方法时,pandas 调用的是 scipy.interpolate.UnivariateSpline 而不是普通的样条插值。这一部分的文档描述比较混乱,而且这种参数的设计也是不合理的,当使用这两类插值方法时,用户一定要小心谨慎地根据自己的实际需求选取恰当的插值方法。

3 Nullable 类型

3.1 缺失记号及其缺陷

在 python 中的缺失值用 None 表示,该元素除了等于自己本身之外,与其他任何元素不相等:

在 numpy 中利用 np.nan 来表示缺失值,该元素除了不和其他任何元素相等之外,和自身的比较结果也返回False

值得注意的是,虽然在对缺失序列或表格的元素进行比较操作的时候,np.nan 的对应位置会返回 False ,但是在使用 equals 函数进行两张表或两个序列的相同性检验时,会自动跳过两侧表都是缺失值的位置,直接返回 True :

在时间序列的对象中,pandas 利用 pd.NaT 来指代缺失值,它的作用和 np.nan 是一致的

那么为什么要引入 pd.NaT 来表示时间对象中的缺失呢?仍然以 np.nan 的形式存放会有什么问题?在 pandas中可以看到 object 类型的对象,而 object 是一种混杂对象类型,如果出现了多个类型的元素同时存储在 Series中,它的类型就会变成 object

NaT 问题的根源来自于 np.nan 的本身是一种浮点类型,而如果浮点和时间类型混合存储,如果不设计新的内置缺失类型来处理,就会变成含糊不清的 object 类型,这显然是不希望看到的。

同时,由于 np.nan 的浮点性质,如果在一个整数的 Series 中出现缺失,那么其类型会转变为 float64 ;而如果在一个布尔类型的序列中出现缺失,那么其类型就会转为 object 而不是 bool

因此,在进入 1.0.0 版本后,pandas 尝试设计了一种新的缺失类型 pd.NA 以及三种 Nullable 序列类型来应对这些缺陷,它们分别是 Int, boolean 和 string 。

3.2 Nullable 类型的性质

从字面意义上看 Nullable 就是可空的,言下之意就是序列类型不受缺失值的影响。例如,在上述三个 Nullable类型中存储缺失值,都会转为 pandas 内置的 pd.NA

在 Int 的序列中,返回的结果会尽可能地成为 Nullable 的类型

对于 boolean 类型的序列而言,其和 bool 序列的行为主要有两点区别:

第一点是带有缺失的布尔列表无法进行索引器中的选择,而 boolean 会把缺失值看作 False

第二点是在进行逻辑运算时,bool 类型在缺失处返回的永远是 False ,而 boolean 会根据逻辑运算是否能确定唯一结果来返回相应的值。那什么叫能否确定唯一结果呢?举个简单例子:True | pd.NA 中无论缺失值为什么值,必然返回 True ;False | pd.NA 中的结果会根据缺失值取值的不同而变化,此时返回 pd.NA ;False& pd.NA 中无论缺失值为什么值,必然返回 False 。

3.3 缺失数据的计算和分组

当调用函数 sum, prob 使用加法和乘法的时候,缺失数据等价于被分别视作 0 和 1,即不改变原来的计算结果

当使用累计函数时,会自动跳过缺失值所处的位置:

当进行单个标量运算的时候,除了 np.nan ** 0 和 1 ** np.nan 这两种情况为确定的值之外,所有运算结果全为缺失(pd.NA 的行为与此一致),并且 np.nan 在比较操作时一定返回 False ,而 pd.NA 返回 pd.NA

另外需要注意的是,diff, pct_change 这两个函数虽然功能相似,但是对于缺失的处理不同,前者凡是参与缺失计算的部分全部设为了缺失值,而后者缺失值位置会被设为 0% 的变化率

对于一些函数而言,缺失可以作为一个类别处理,例如在 groupby, get_mmies 中可以设置相应的参数来进行增加缺失类别:

4 练习 

4.1 Ex1:缺失值与类别的相关性检验

.4.2 Ex2:用回归模型解决分类问题

㈤ Python 不知道list里面有多少个元素 怎么提取出来

# 获取到症状

item['symptons'] = li.xpath('div/p/a/text()').extract()

#从列表中取出元素,

str=''

for s in item['symptons']:

str=str+s+' '

item['symptons']=str

print('#############')

print(item['symptons'])

(5)python非缺失值怎么获取扩展阅读

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。

Python有6个序列的内置类型,但最常见的是列表和元组。

序列都可以进行的操作包括索引,切片,加,乘,检查成员。

此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。

列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。

列表的数据项不需要具有相同的类型

创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示:

list1 = ['physics', 'chemistry', 1997, 2000]

list2 = [1, 2, 3, 4, 5 ]list3 = ["a", "b", "c", "d"]

㈥ python数据分析使用的数据

1、对数据进行排序df.sort_values()
#读取数据
titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandas itanic_train.csv")
#用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru
2、缺失值判断及统计pandas.isnull()、pandas.isnull
空值统计方法一:df.isnull().sum():
#当不指定具体列时,统计整个df的缺失值个数
titanic_survival['Age'].isnull().sum()
通过len()函数统计缺失值
3、缺失值处理
处理缺失值可以分为两类:删除缺失值和缺失值插补。而缺失值插补又分为以下几种:
均值/中位数/众数插补
使用固定值(将缺失值的属性用一个常量代替)
最近邻插补(在记录中找到与缺失值样本最接近的样本的该属性插补)
回归方法(对带有缺失值的变量,根据已有数据和与其有关的其他变量建立拟合模型来预测缺失值)
插值法(利用已知点建立合适的插值函数f(x),未知值由对应点xi求出来近似代替)
下面,我们主要讨论删除缺失值,学习一些pandas缺失值删除的操作。
1)df.dropna(),舍弃含有任意缺失值的行
#等价于titanic_survival.dropna(axis=0) axis=0表示删除行,axis=1表示删除列
dropall=titanic_survival.dropna()
删除含任意空值的行
2)df.dropna()函数删除某个列中含有空值的行
现在这个数据中age、cabin、embarked都有缺失值,如果我们直接使用df.dropna()会删除掉这三列中都有空值的所有行,但是我们希望只删除age列中有空值的数据,那该如何处理呢?
直接使用df.dropna(subset=['column_list'])
drop_age_null=titanic_survival.dropna(subset=["Age"])
删除指定列中含有缺失值的行
pandas自定义函数

㈦ Python beautifulsoup 获取标签中的值 怎么获取

age = soup.find(attrs={"class":"age"}) #你这里find只要一个attrs参数不会报错。

if age == None: #简单点可以用 if not age:

print u'没有找到'

else:

soup.find(attrs={"class":"name"})

#否则用findAll找出所有具有这个class的tr

tr = html.find("tr", attrs={"class":"show_name"})

tds = tr.findAll("td")

for td in tds:

print td.string # 或许不是string属性,你可以用dir(td)看看有哪些可用的。



(7)python非缺失值怎么获取扩展阅读:

1、如果是函数定义中参数前的*表示的是将调用时的多个参数放入元组中,**则表示将调用函数时的关键字参数放入一个字典中。

1)如定义以下函数:

def func(*args):print(args)

当用func(1,2,3)调用函数时,参数args就是元组(1,2,3)

2)如定义以下函数:

def func(**args):print(args)

当用func(a=1,b=2)调用函数时,参数args将会是字典{'a':1,'b':2}

学python的同时一定会接触到其他技术,毕竟光会python这门语言是不够的,要看用它来做什么。比如说用 python做爬虫,就必须接触到html, http等知识。

python是现在最火的数据分析工具语言python的进阶的路线是数据清洗,爬虫,数据容器,之后是卷积,线性分析,和机器学习,区块连,金融方面的量化等高端进阶。

阅读全文

与python非缺失值怎么获取相关的资料

热点内容
程序员主动离职和被裁员哪个好 浏览:790
360命令行 浏览:726
程序员骗色 浏览:668
cisco2950重启命令 浏览:459
加密货币区块链可以增发吗 浏览:290
黄龙公式源码 浏览:773
linux系统ftp服务器 浏览:321
山西配电服务器机柜云主机 浏览:452
量化选股模型公式源码 浏览:9
龙卡购车分期怎么绑app 浏览:779
python读取bios信息 浏览:113
程序员老爸初体验 浏览:729
aes加密后长什么样子 浏览:978
语言有编译器吗 浏览:31
解压声控怎么调大音量 浏览:216
缠论中的高精度画笔源码 浏览:824
通用计算型云服务器 浏览:620
程序员手机分享 浏览:296
pdfsmart 浏览:425
nginx部署php 浏览:666