㈠ python数据处理:筛选、统计、连表、拼接、拆分、缺失值处理
file1_path ='E:/Users/lenovo/Desktop/中视/622召回.csv' # 源数据
格式:file1=pd.read_csv(file1_path)
pd.read_csv(file1_path,encoding='gbk')
pd.read_csv(file1_path,encoding='gbk',skiprows=[2,3])
pd.read_csv(file1_path,encoding='gbk',skiprows=lambda x:x%2==1)
pd.read_csv(file1_path,encoding='gbk',keep_default_na=False)
new=pd.DataFrame()
new.new[[0,1,2]]
new.new[0:2]
查询结果同上
new.loc[new['激活数']>1000]
loc和iloc的区别:
loc:纯标签筛选
iloc:纯数字筛选
#筛选出new的某两列
new=new.loc[:,['phone','收件人姓名']]
#筛选new的第0,1列
new.iloc[:,[0,1]]
使用‘==’筛选-筛查“崔旭”的人(只能筛查指定明确的)
#new=file1.loc[(file1['收件人姓名']=='崔旭')|(file1['收件人姓名']=='崔霞')]
#print(new)
#使用loc函数筛选-str.contains函数-筛查名字中包含'亮'和'海'的人
#new=file1.loc[file1['收件人姓名'].str.contains('亮|海')]
#print(new)
#使用loc函数筛选-str.contains函数-筛查'崔'姓的人
#new=file1.loc[file1['收件人姓名'].str.startswitch('崔')]
#print(new)
df = df[(df['DEPOSIT_PAY_TIME_x'] .notnull() ) & (df['DEPOSIT_PAY_TIME_x'] != "" )]
print("ring_time(number)=0的个数:",newdata[newdata['ring_time(number)'] ==0].count()['ring_time(number)'])
print("ring_time(number)=1,2,3的个数:",newdata[(newdata['ring_time(number)'] >0) & (newdata['ring_time(number)'] <4)].count()['ring_time(number)'])
print(newdata[newdata['ring_time(number)'] ==0])
newdata[newdata['Team']. isin (['England','Italy','Russia'])][['Team','Shooting Accuracy']]
df.年龄.value_counts()
1.修改指定位置数据的值(修改第0行,’创建订单数‘列的值为3836)
new.loc[0,'创建订单数']=3836
2.替换‘小明’-‘xiaoming’
df.replace({'name':{'小明':'xiaoming'}})
3.批量替换某一列的值(把‘性别’列里的男-male,女-felmale)
方法一:df['性别']=df['性别'].map({'男':'male','女':'female'})
方法二:df['性别'].replace('female','女',inplace=True)
或df['性别']=df['性别'].replace('female','女') 这就是inplace的作用
+df['性别'].replace('male','男',inplace=True)
4.替换列索引
df.columns=['sex','name','height','age']
或者:df.rename(columns={'性别':'sex','姓名':'name','身高':'height','年龄':'age'})
5.删除某一列
del df['player']
6. 删除某一列(方法二),删除某一行(默认axis=0删除行,为1则删除列)
删除某一列(方法二)
df.drop('性别',axis=1)
删除某一行
df.drop(1,axis=0)
file1=pd.read_csv(file1_path)
file2=pd.read_csv(file2_path)
new1=pd.DataFrame()
new1['phone']=file1['phone']
new1['contact_time']=file1['contact_time']
new2=pd.DataFrame()
new2['phone']=file2['phone']
new2['submission_audit_time']=file2['提交审核时间']
newdata=pd.merge(new1,new2,on='phone',how='left')
df=pd.concat([df1,df2],axis=0)
4.2.2 横向表连接
df=pd.concat([df1,df2],axis=1)
df1['地区'].str.split('·',3,expand=True)
df1:
df1[['城市', '城区','地址']] = df1['地区'].str.split('·', 3, expand = True)
5.1 缺失值删除
data.dropna(axis=0,subset = ["Age", "Sex"]) # 丢弃‘Age’和‘Sex’这两列中有缺失值的行
data.dropna(how = 'all') # 传入这个参数后将只丢弃全为缺失值的那些行
data.dropna(axis = 1) # 丢弃有缺失值的列(一般不会这么做,这样会删掉一个特征)
data.dropna(axis=1,how="all") # 丢弃全为缺失值的那些列
5.2 缺失值填充:pandas.DataFrame.fillna()函数
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
功能:使用指定方法填充NA/NaN值
其中inplace=True就是直接在原有基础上填满
5.3 缺失值查询:
缺失值数量查询:df.isnull().sum()
缺失值行查询:df[df.isnull().T.any()]
newdata['ring_time']=pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])
newdata['ring_time(number)']=(pd.to_datetime(newdata['submission_audit_time'])-pd.to_datetime(newdata['contact_time'])).apply(lambda x: x.days)
new=pd.DataFrame()
new=newdata[newdata['ring_time(number)'] ==0]
new.to_csv(save_path,encoding='utf-8-sig')
将数据按行拆分并存储到不同的csv文件中:
path='C:/Users/EDZ/Desktop/工作/2021.08.19/'
for i in range(0,30):
df.loc[[i]].to_csv(path+str(i)+'.csv',encoding='gbk')
df = df[['购药日期', '星期','社保卡号','商品编码', '商品名称', '销售数量', '应收金额', '实收金额' ]]
㈡ python怎么取出字典中的值并进行计算
在Python中,可以使用字典的键来获取相应的值,并进行计算。下面是一个简颂铅察单的示例,演示了如何从字典中获取值并进行相加计算:
# 定义一个字典,包含三个键值对
my_dict = {'a': 10, 'b': 20, 'c': 30}
# 从字典中获取相应的值,并进行计算
result = my_dict['a'] + my_dict['b'] + my_dict['c']
# 输出计算结果
print('计算结果为:', result)
运行上述代码会输出:计算结果为: 60,说明程序成功地从字典中获取了相应的值,并进行了计算。
需要注意的是,在从字典中获取值时,如果指定的键不存在,程序会抛出 KeyError 异常。为了避免这种情况,可激银以使用 get() 方法获野茄取值,如果指定的键不存在,该方法会返回 None 或指定的默认值,而不是抛出异常。下面是一个使用 get() 方法的示例:
# 定义一个字典,包含三个键值对
my_dict = {'a': 10, 'b': 20, 'c': 30}
# 从字典中获取相应的值,并进行计算
result = my_dict.get('a', 0) + my_dict.get('b', 0) + my_dict.get('d', 0)
# 输出计算结果
print('计算结果为:', result)
在上述代码中,get() 方法的第二个参数指定了默认值,如果指定的键不存在,则返回0。这样,即使字典中没有键为 d 的项,程序也不会抛出异常,而是将其值视为0进行计算。
㈢ python检查是否有缺失值
统计data里每一列是否有空值:
data.isnull().any()
统计data里每一列空值的个数:
data.isnull().any().sum()
但是有的时候,明明有空值却统计不出来。
最近我遇到的数据,空值的填充是null,这个需要转化一下才可以用上面的函数。
data=data.replace('null',np.NaN)
然后你再继续用data.isnull().any(),ata.isnull().any().sum()就没问题了。
如果这么做,你的问题还没解决,查看你的缺失值的填充是什么,用np.NaN替代。、
另外的方法:
np.any(np.isnan(data))
np.all(np.isfinite(data))
㈣ 缺失值处理
缺失数据
1 缺失值的统计和删除
1.1 缺失信息的统计
缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,通过和 sum 的组合可以计算出每列缺失值的比例。
如果想要查看某一列缺失或者非缺失的行,可以利用 Series 上的 isna 或者 notna 进行布尔索引。例如,查看身高缺失的行:
如果想要同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行,可以使用 isna, notna 和any, all 的组合。例如,对身高、体重和转系情况这 3 列分别进行这三种情况的检索
1.2 缺失信息的删除
数据处理中经常需要根据缺失值的大小、比例或其他特征来进行行样本或列特征的删除,pandas 中提供了dropna 函数来进行操作。
dropna 的主要参数为轴方向 axis (默认为 0,即删除行)、删除方式 how 、删除的非缺失值个数阈值 thresh(非缺失值没有达到这个数量的相应维度会被删除)、备选的删除子集 subset ,其中 how 主要有 any 和 all两种参数可以选择。
2 缺失值的填充和插值
2.1 利用 fillna 进行填充
在 fillna 中有三个参数是常用的:value, method, limit 。其中,value 为填充值,可以是标量,也可以是索引到元素的字典映射;method 为填充方法,有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型,limit 参数表示连续缺失值的最大填充次数。
2.2 插值函数
在关于 interpolate 函数的 文档 描述中,列举了许多插值法,包括了大量 Scipy 中的方法。由于很多插值方法涉及到比较复杂的数学知识,因此这里只讨论比较常用且简单的三类情况,即线性插值、最近邻插值和索引插值。
对于 interpolate 而言,除了插值方法(默认为 linear 线性插值)之外,有与 fillna 类似的两个常用参数,一个是控制方向的 limit_direction ,另一个是控制最大连续缺失值插值个数的 limit 。其中,限制插值的方向默认为 forward ,这与 fillna 的 method 中的 ffill 是类似的,若想要后向限制插值或者双向限制插值可以指定为 backward 或 both
关于 polynomial 和 spline 插值的注意事项
在 interpolate 中 如 果 选 用 polynomial 的 插 值 方 法, 它 内 部 调 用 的 是scipy.interpolate.interp1d(*,*,kind=order) , 这 个 函 数 内 部 调 用 的 是 make_interp_spline方法,因此其实是样条插值而不是类似于 numpy 中的 polyfit 多项式拟合插值;而当选用 spline方法时,pandas 调用的是 scipy.interpolate.UnivariateSpline 而不是普通的样条插值。这一部分的文档描述比较混乱,而且这种参数的设计也是不合理的,当使用这两类插值方法时,用户一定要小心谨慎地根据自己的实际需求选取恰当的插值方法。
3 Nullable 类型
3.1 缺失记号及其缺陷
在 python 中的缺失值用 None 表示,该元素除了等于自己本身之外,与其他任何元素不相等:
在 numpy 中利用 np.nan 来表示缺失值,该元素除了不和其他任何元素相等之外,和自身的比较结果也返回False
值得注意的是,虽然在对缺失序列或表格的元素进行比较操作的时候,np.nan 的对应位置会返回 False ,但是在使用 equals 函数进行两张表或两个序列的相同性检验时,会自动跳过两侧表都是缺失值的位置,直接返回 True :
在时间序列的对象中,pandas 利用 pd.NaT 来指代缺失值,它的作用和 np.nan 是一致的
那么为什么要引入 pd.NaT 来表示时间对象中的缺失呢?仍然以 np.nan 的形式存放会有什么问题?在 pandas中可以看到 object 类型的对象,而 object 是一种混杂对象类型,如果出现了多个类型的元素同时存储在 Series中,它的类型就会变成 object
NaT 问题的根源来自于 np.nan 的本身是一种浮点类型,而如果浮点和时间类型混合存储,如果不设计新的内置缺失类型来处理,就会变成含糊不清的 object 类型,这显然是不希望看到的。
同时,由于 np.nan 的浮点性质,如果在一个整数的 Series 中出现缺失,那么其类型会转变为 float64 ;而如果在一个布尔类型的序列中出现缺失,那么其类型就会转为 object 而不是 bool
因此,在进入 1.0.0 版本后,pandas 尝试设计了一种新的缺失类型 pd.NA 以及三种 Nullable 序列类型来应对这些缺陷,它们分别是 Int, boolean 和 string 。
3.2 Nullable 类型的性质
从字面意义上看 Nullable 就是可空的,言下之意就是序列类型不受缺失值的影响。例如,在上述三个 Nullable类型中存储缺失值,都会转为 pandas 内置的 pd.NA
在 Int 的序列中,返回的结果会尽可能地成为 Nullable 的类型
对于 boolean 类型的序列而言,其和 bool 序列的行为主要有两点区别:
第一点是带有缺失的布尔列表无法进行索引器中的选择,而 boolean 会把缺失值看作 False
第二点是在进行逻辑运算时,bool 类型在缺失处返回的永远是 False ,而 boolean 会根据逻辑运算是否能确定唯一结果来返回相应的值。那什么叫能否确定唯一结果呢?举个简单例子:True | pd.NA 中无论缺失值为什么值,必然返回 True ;False | pd.NA 中的结果会根据缺失值取值的不同而变化,此时返回 pd.NA ;False& pd.NA 中无论缺失值为什么值,必然返回 False 。
3.3 缺失数据的计算和分组
当调用函数 sum, prob 使用加法和乘法的时候,缺失数据等价于被分别视作 0 和 1,即不改变原来的计算结果
当使用累计函数时,会自动跳过缺失值所处的位置:
当进行单个标量运算的时候,除了 np.nan ** 0 和 1 ** np.nan 这两种情况为确定的值之外,所有运算结果全为缺失(pd.NA 的行为与此一致),并且 np.nan 在比较操作时一定返回 False ,而 pd.NA 返回 pd.NA
另外需要注意的是,diff, pct_change 这两个函数虽然功能相似,但是对于缺失的处理不同,前者凡是参与缺失计算的部分全部设为了缺失值,而后者缺失值位置会被设为 0% 的变化率
对于一些函数而言,缺失可以作为一个类别处理,例如在 groupby, get_mmies 中可以设置相应的参数来进行增加缺失类别:
4 练习
4.1 Ex1:缺失值与类别的相关性检验
.4.2 Ex2:用回归模型解决分类问题
㈤ Python 不知道list里面有多少个元素 怎么提取出来
# 获取到症状
item['symptons'] = li.xpath('div/p/a/text()').extract()
#从列表中取出元素,
str=''
for s in item['symptons']:
str=str+s+' '
item['symptons']=str
print('#############')
print(item['symptons'])
(5)python非缺失值怎么获取扩展阅读
序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。
Python有6个序列的内置类型,但最常见的是列表和元组。
序列都可以进行的操作包括索引,切片,加,乘,检查成员。
此外,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。
列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。
列表的数据项不需要具有相同的类型
创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示:
list1 = ['physics', 'chemistry', 1997, 2000]
list2 = [1, 2, 3, 4, 5 ]list3 = ["a", "b", "c", "d"]
㈥ python数据分析使用的数据
1、对数据进行排序df.sort_values()
#读取数据
titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandas itanic_train.csv")
#用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru
2、缺失值判断及统计pandas.isnull()、pandas.isnull
空值统计方法一:df.isnull().sum():
#当不指定具体列时,统计整个df的缺失值个数
titanic_survival['Age'].isnull().sum()
通过len()函数统计缺失值
3、缺失值处理
处理缺失值可以分为两类:删除缺失值和缺失值插补。而缺失值插补又分为以下几种:
均值/中位数/众数插补
使用固定值(将缺失值的属性用一个常量代替)
最近邻插补(在记录中找到与缺失值样本最接近的样本的该属性插补)
回归方法(对带有缺失值的变量,根据已有数据和与其有关的其他变量建立拟合模型来预测缺失值)
插值法(利用已知点建立合适的插值函数f(x),未知值由对应点xi求出来近似代替)
下面,我们主要讨论删除缺失值,学习一些pandas缺失值删除的操作。
1)df.dropna(),舍弃含有任意缺失值的行
#等价于titanic_survival.dropna(axis=0) axis=0表示删除行,axis=1表示删除列
dropall=titanic_survival.dropna()
删除含任意空值的行
2)df.dropna()函数删除某个列中含有空值的行
现在这个数据中age、cabin、embarked都有缺失值,如果我们直接使用df.dropna()会删除掉这三列中都有空值的所有行,但是我们希望只删除age列中有空值的数据,那该如何处理呢?
直接使用df.dropna(subset=['column_list'])
drop_age_null=titanic_survival.dropna(subset=["Age"])
删除指定列中含有缺失值的行
pandas自定义函数
㈦ Python beautifulsoup 获取标签中的值 怎么获取
age = soup.find(attrs={"class":"age"}) #你这里find只要一个attrs参数不会报错。
if age == None: #简单点可以用 if not age:
print u'没有找到'
else:
soup.find(attrs={"class":"name"})
#否则用findAll找出所有具有这个class的tr
tr = html.find("tr", attrs={"class":"show_name"})
tds = tr.findAll("td")
for td in tds:
print td.string # 或许不是string属性,你可以用dir(td)看看有哪些可用的。
(7)python非缺失值怎么获取扩展阅读:
1、如果是函数定义中参数前的*表示的是将调用时的多个参数放入元组中,**则表示将调用函数时的关键字参数放入一个字典中。
1)如定义以下函数:
def func(*args):print(args)
当用func(1,2,3)调用函数时,参数args就是元组(1,2,3)
2)如定义以下函数:
def func(**args):print(args)
当用func(a=1,b=2)调用函数时,参数args将会是字典{'a':1,'b':2}
学python的同时一定会接触到其他技术,毕竟光会python这门语言是不够的,要看用它来做什么。比如说用 python做爬虫,就必须接触到html, http等知识。
python是现在最火的数据分析工具语言python的进阶的路线是数据清洗,爬虫,数据容器,之后是卷积,线性分析,和机器学习,区块连,金融方面的量化等高端进阶。