导航:首页 > 编程语言 > pythondf排序

pythondf排序

发布时间:2023-10-21 02:52:48

python基础命令都有什么

(1)打开csv文件
import pandas as pd
df=pd.read_csv(r’data/data.csv’)
(2)dataframe index 重新排序
data=df.sort_index(axis=0,ascending=False)
(3)dataframe 按照某一列进行升序或者降序排列
data=df.sort([‘date’],ascending=True升序,False降序)
(4)dataframe 的index重新从0开始
data=data.reset_index(drop=True)
(5)画横坐标是日期的图
import matplotlib.pyplot as plt
x=data[‘date’]#日期是字符串形式
y=data[‘close price’]
plt.plot_date(x,y)
(6)求标准差
import numpy as np
np.std
(7)下取整
import math
math.floor
上取整:math.ceil
(8)希尔伯特变换
from scipy import fftpack
hx= fftpack.hilbert(price)
(9)值排序
data.order()
(10)差分
data.diff(1)#一阶差分
dataframe 删除元素
data.drop(元素位置)
(11)嵌套的array处理方法
import itertools
a = [[1,2,3],[4,5,6], [7], [8,9]]
out = list(itertools.chain.from_iterable(a))
(12)dataframe修改列名
data.columns=[‘num’,’price’]
(13)excel表导入以后有空行解决办法
import numpy as np
data= data.drop(data.loc[np.isnan(data.name.values)].index)
(15)diff用法
一.是dataframe或者series格式,直接就用data.diff()
二.是list格式,先转换成转换成list格式data=data.tolist() 然后dif=np.diff(data)
(16)dataframe中的日期type不是date格式,不能直接相加减,所以先转换成list格式
t=data.time.tolist()
date_time = datetime.datetime.strptime(str(t),’%Y-%m-%d %H:%M:%S’)
date_time=datetime.date(date_time.year,date_time.month,date_time.day)
past= date_time - datetime.timedelta(days=n*365)
(17)符号化
np.sign
(18)字典的使用
label={‘11’:’TP’,’1-1’:’FN’,’-11’:’FP’,’-1-1’:’TN’}
for i in range(len(data1)):
state=str(int(data1[i]))+str(int(data2[i]))
result.append(label[state])
(19)用plt画图的时候中文不显示的解决办法
from matplotlib.font_manager import FontProperties
font_set = FontProperties(fname=r”c:windowsontssimsun.ttc”, size=15)
plt.title(u’中文’, fontproperties=font_set)
(20)获取当前程序运行的时间
from time import time
time1=time()
time2=time()
print(time2-time1)
以上是我找到的资料,对于我这个学习Python到半吊子的人来说也是要收藏起来的。

② Python对数据进行排序-中英文

sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')

参数说明:

by:  可以填入字符串或者字符串组成的列表。也就是说, 如果axis=0,那么by="列名";如果axis=1,那么by="行名"。

axis:  {0 or ‘index’, 1 or ‘columns’}, default 0,意思就是如果 axis=0,就按照索引排序,即纵向排序;如果axis=1,则按列排序,即横向排序。默认是axis=0 。

ascending:  输入布尔型, True是升序 , False是降序 ,也可以可以是[True,False],即第一个字段升序,第二个字段降序 。

inplace : 输入布尔型,是否用排序后的数据框替换现有的数据框

kind:  排序的方法,{‘quicksort’, ‘mergesort’, ‘heapsort’},默认是使用‘quicksort’。这个参数用的比较少,大家可以试一试。

na_position :  {‘first’, ‘last’}, 缺失值的排序 ,也就说决定将缺失值放在数据的最前面还是最后面 。first是排在前面,last是排在后面,默认是用last 。

例子:

scores= pd.DataFrame([[87,56,85],[46,87,97],[34,65,86]],columns=['jack', 'rose', 'mike'])

scores

1.对‘rose’这一列进行降序排序:

df_sc=scores.sort_values(by='rose',ascending=False)

df_sc

2.对第0行进行升序排序:

scores.sort_values(by=0,axis=1,ascending=True)

3.第1行进行升序,第0行进行降序:

scores.sort_values(by=[1,0],axis=1,ascending=[True,False]

4.观察数据

data.head:

查看数据的前五行。

data.tail:

查看数据的后五行。

data.shape :

查看矩阵或数组的维数,或者是说数据表的结构(有几行几列)。

data.info :

查看数据的基本信息,如:数据类型、缺失值数量等。

#brand目标:中文-中英-英文

2.1 包含中文,纯英文

for i in range(0,len(file1)):

    result = re.compile(u'[\u4e00-\u9fa5]')

    contents = file1['brand'][i]

    match = result.search(contents)

    if match:

        file1.loc[i,['index1']]=0    #0为包含中文

    else:

        file1.loc[i,['index1']]=1    #1为纯英文

2.1 包含英文,纯中文

for i in range(0,len(file1)):

    file1.loc[i,['index2']]=len(re.findall('[a-zA-Z]+', file1['brand'][i]) )  #0为纯中文,1为包含英文

③ 数据分析员用python做数据分析是怎么回事,需要用到python中的那些内容,具体是怎么操作的

大数据!大数据!其实是离不开数据二字,但是总体来讲,自己之前对数据的认知是不太够的,更多是在关注技术的提升上。换句话讲,自己是在做技术,这些技术处理的是数据,而不能算是自己是在做数据的。大规模数据的处理是一个非常大的课题,但是这一点更偏向于是搞技术的。

与数据分析相关的Python库很多,比如Numpy、pandas、matplotlib、scipy等,数据分析的操作包括数据的导入和导出、数据筛选、数据描述、数据处理、统计分析、可视化等等。接下来我们看一下如何利用Python完成数据的分析。
生成数据表
常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据,Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入Numpy库。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等等。
检查数据表
Python中使用shape函数来查看数据表的维度,也就是行数和列数。你可以使用info函数查看数据表的整体信息,使用dtypes函数来返回数据格式。Isnull是Python中检验空值的函数,你可以对整个数据表进行检查,也可以单独对某一列进行空值检查,返回的结果是逻辑值,包含空值返回True,不包含则返回False。使用unique函数查看唯一值,使用Values函数用来查看数据表中的数值。
数据表清洗
Python中处理空值的方法比较灵活,可以使用Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。Python中dtype是查看数据格式的函数,与之对应的是astype函数,用来更改数据格式,Rename是更改列名称的函数,drop_plicates函数删除重复值,replace函数实现数据替换。
数据预处理
数据预处理是对清洗完的数据进行整理以便后期的统计和分析工作,主要包括数据表的合并、排序、数值分列、数据分组及标记等工作。在Python中可以使用merge函数对两个数据表进行合并,合并的方式为inner,此外还有left、right和outer方式。使用ort_values函数和sort_index函数完成排序,使用where函数完成数据分组,使用split函数实现分列。
数据提取
主要是使用三个函数:loc、iloc和ix,其中loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。除了按标签和位置提起数据以外,还可以按具体的条件进行数据,比如使用loc和isin两个函数配合使用,按指定条件对数据进行提取。
数据筛选汇总
Python中使用loc函数配合筛选条件来完成筛选功能,配合sum和 count函数还能实现excel中sumif和countif函数的功能。Python中使用的主要函数是groupby和pivot_table。groupby是进行分类汇总的函数,使用方法很简单,制定要分组的列名称就可以,也可以同时制定多个列名称,groupby 按列名称出现的顺序进行分组。

④ 数据蛙-Python进阶

这是漫长的一周,本周完成了Python的进阶模块,主要是pandas、numpy、matplotlib、seaborn、pyecharts这些模块的学习以及一个实际的案例:商品销售情况分析,之前一直觉得课程难度不够,但到这一周难度就大大提高了。尤其是案例练习中的RFM模型和用户生命周期建立,看懂不难但是自差首己写一直出错,在不断出错不断尝试中知识得到了积累,另外可视化部分没有什么练习题,希望后面可以加上一些这方面的练习,接下来分模块来总结一下学习的内容。

重新设置索引:df.set_index()

Series格式转换为DataFrame:df.to_frame()

文件读取:pd.read_csv(filepath, header = 0,skiprows=[1,2]) 

使用位禅庆源置做索引:df.loc[0]        使用列表做索引:df.loc[[0,1,2]]

使用切片做索引:df.loc[0:4]        使用bool类型索引:df[df['年龄']>30]

loc 是基于索引值的,切片是左闭右闭的

iloc 是基于位置的,切片是左闭右开的

修改列索引:df.rename(columns={'姓名':'name', '年龄':'age'},inplace=True)

替换一个值:df.replace({'name':{'小明':'xiaoming'}},inplace=True)

对数据进行排序:df.sort_values('age')

累加求和:df.cumsum(0)

删除列:del df['player']         删除行:df.drop(labels=0) labels 是行列的名字

数据拼接:pd.concat([left,right],axis=1)

# 指定列进行关联,默认是 inner join     result = pd.merge(left,right,on='key')

#多个关联条件:result = pd.merge(left, right, on=['key1', 'key2'])

#左连接:result = pd.merge(left, right, how='left', on=['key1', 'key2'])

# 列名不一样的关联:pd.merge(left,right,left_on = ['key1','key2'],right_on = ['key3','key4'])

#单个分组:groups = df.groupby('district')

# 作用多个聚合函数:groups.agg([np.mean,np.sum,np.std])

# 针对具体列聚合 groups.age.agg([np.mean,np.sum,np.std])

# 不同列不同聚合函数 groups.agg({"age":np.mean,"novip_buy_times":np.sum})

分组后该列值求和显示:groups['vip_buy_times'].transform('sum')

通常用于求占比:transform(lambda x: x /sum(x))

# 填充指定值:np.full([3,4],1)

# 起始为10,5为步长,30为结贺态尾取不到:np.arange(10, 30, 5)

#随机矩阵:np.random.random((2,3))

# 平均划分:np.linspace( 0, 2*pi, 100 )

# 类型及转换:vector.astype('float')

# 多维变一维:matrix.ravel()

# 矩阵的扩展:a = np.arange(0, 40, 10)    b = np.tile(a, (3, 5))    # 行变成3倍,列变成5倍

# 水平拼接:np.hstack((a,b))  竖直拼接:np.vstack((a,b))

# 竖直分割:np.hsplit(a,3)    #水平分割:np.vsplit(a,3)

8. Select the data in rows [3, 4, 8] and in columns ['animal', 'age'].

A:df.loc[df.index[[3,4,8]],['animal','age']]

行采用位置,列采用普通索引,这里利用index函数将位置变化为具体的普通索引,再利用loc函数

19. The 'priority' column contains the values 'yes' and 'no'. Replace this column with a column of boolean values: 'yes' should be True and 'no' should be False

A1:df['priority'].replace(['yes','no'],[True,False],inplace=True) 用replace函数替换

A2:df['priority'] = df['priority'].map({'yes': True, 'no': False}) 用map函数替换

最大最小值的索引:df.idxmax、df.idxmin

找出最大最小的前N个数:nlargest()和nsmallest() 

将原表分组 并设置分段区间 pd.cut(df['A'], np.arange(0, 101, 10))

resample函数 日期重采样:s.resample('M').mean()

TimeGrouper 重组:s.groupby(pd.TimeGrouper('4M')).idxmax()

split 分割函数:temp = df['From_To'].str.split('_', expand=True) True为DataFrame

两个DataFrame拼接用join:df = df.join(temp)

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签

plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

%matplotlib inline 直接显示

折线图:plt.plot(x,y,color = 'r')

柱状图:plt.bar(x,y)  plt.barh(x,y) 多个bar x设置不同 堆积图 bottom设置不同

散点图:plt.scatter(x, y, c=colors, alpha=0.5, s = area)

直方图:plt.hist(a,bins= 20) bin代表分隔的最小单位

plt.legend() 显示图例

for a,b in zip(X+W[i],data[i]):

    plt.text(a,b,"%.0f"% b,ha="center",va= "bottom") 添加数据标签

plt.annotate('注释文本',xy=(1, np.sin(1)),xytext=(2, 0.5), fontsize=16,arrowprops=dict(arrowstyle="->")) 添加注释文本

plt.xlabel("Group") x轴标题

plt.ylabel("Num") y轴标题

fig, axes = plt.subplots(nrows=2, ncols=2,facecolor='darkslategray')  绘制多个图形

axes[0,0] axes[0,1] axes[1,0] axes[1,1]

pylab.rcParams['figure.figsize'] = (10, 6) # 调整图片大小

动态展示图表

from pyecharts.charts import Bar

from pyecharts import options as opts

** pyecharts 绘图的五个步骤:**

创建图形对象:bar = Bar()

添加绘图数据:bar.add_xaxis(["衬衫", "毛衣", "领带", "裤子", "风衣", "高跟鞋", "袜子"])

                         bar.add_yaxis("商家A", [114, 55, 27, 101, 125, 27, 105])

                         bar.add_yaxis("商家B", [57, 134, 137, 129, 145, 60, 49])

配置系列参数:对标签、线型等的一些设置

配置全局参数:bar.set_global_opts(title_opts=opts.TitleOpts(title="销售情况"))

渲染图片:生成本地 HTML 文件 bar.render("mycharts.html")  bar.render()

notebook 渲染:bar.render_notebook()

bar = (Bar()

    .add_xaxis(["衬衫", "毛衣", "领带", "裤子", "风衣", "高跟鞋", "袜子"])

    .add_yaxis("商家A", [114, 55, 27, 101, 125, 27, 105])

    .add_yaxis("商家B", [57, 134, 137, 129, 145, 60, 49])

    .set_global_opts(title_opts=opts.TitleOpts(title="某商场销售情况"))

)

bar.render_notebook()

柱状图:Bar()

条形图:bar.reversal_axis() #翻转XY轴,将柱状图转换为条形图

折线图:from pyecharts.charts import Line  line=Line()

饼图:from pyecharts.charts import Page, Pie    Pie() 

转换日期类型:df['order_dt']=pd. to_datetime (df.order_dt,format="%Y%m%d")

将日期转换为月为单位:df['month']=df.order_dt.values. astype('datetime64[M]') 所有日期显示为当月第一天

去除日期单元值:order_diff/ np.timedelta64(1,'D')

过滤部分极值:grouped_user.sum() .query('order_procts<100') .order_amount

数据透视表:rfm=df.pivot_table( index ='user_id', values =['order_procts','order_amount'], aggfunc ={'order_amount':'sum','order_procts':'sum'})

map() 方法是pandas.series.map()方法, 对DF中的元素级别的操作, 可以对df的某列或某多列

applymap(func) 也是DF的属性, 对整个DF所有元素应用func操作

purchase_r=pivoted_counts.applymap(lambda x: 1 if x>1 else np.NaN if x==0 else 0)

apply(func) 是DF的属性, 对DF中的行数据或列数据应用func操作,也可用于Series

apply(lambda x:x.cumsum()/x.sum())    累计占比

apply(lambda x:x/x.sum(),axis=0)     每一列中每行数据占比

下周开始进入数据分析思维的课程,很期待后面的课程以及项目,加油!

⑤ pandas常用函数汇总

pandas官方文档:http://pandas.pydata.org/pandas-docs/stable/api.html

对常用函数做了汇总,每个函数的参数可能不是全的,但是常用的,不常用的没总结,如有问题,请不吝赐教,谢谢!

1、创建Series

      通用函数:pd.Series(values,index)

     1)pd.Series([1,2,3],index=[‘a’,‘b’,‘c‘])

     2)pd.Series(np.array([1,2,3]),index=[‘a’,‘b’,‘c‘])

     3)pd.Series({ 'a':1,  'b':2,  'c':3})

        Series转字典:Series.to_dict()

     说明:Series的values参数是python中常见的一维数据类型。

2、属性李此拦

     1)Series.values --->array([1,2,3])

           Series的values是array类型

     2)Series.index--->index([‘a’,‘b’,‘c‘])

           未指定index时,自动生成 0-(N-1)的整数索引,

           指定 index时,使用指定索引。

 3、Series的索引与切片

       Series[0] / Series['a']  : Sereis可以位置索引或标签索引,也可以进行切片操作

1、创建DataFrame

    1) 创建DataFrame的通用函数:

     df = pd.DataFrame(values,index,columns)

     pd.dataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['a','b','c'],columns=['bj','sh','sz'])

     pd.dataFrame(np.arange(1,10).reshape(3,3),index=['a','b','c'],columns=['bj','sh','sz'])

     pd.dataFrame('bj':[1,4,7],'sh':[2,5,8],'sz':[3,6,9],index=['a','b','c'])

说明:创建方法与Sries类似,Series的values参数是python中常见的一维数据类型,DataFrame的values参数是python中常见的二维数据类型。

    2) 通过网页中复制数据快捷创建

        import webbrowser

        link = 'https://www.tiobe.com/tiobe-index/'

        webbrowser.open(link)

        打开界面进行复扒做制,将数据复制到粘贴板中

        df = pd.read_clipboard()   #从粘贴板中读取数据

    3)通过Series创建DataFrame

        df = pd.DataFrame([s1,s2,s3],columns=['bj','sh','sz'])

        注意:单独的s1,s2,s3是纵向排列的的Series,但是在DataFrame中是横向排列的。

        自己总结:Series除了打印出来是Series格式外,其他时候可以直接当作list来操作。

2、属性

     1)df.columns

        通过columns生成新的DataFrame

        df_new = pd.DataFrame(df,columns=['x1','x2'])

       哪胡 或者df_new = df[['x1','x2']]

    2)df.shape  显示行列数

    3)df.head()   默认显示前5行

    4)df.tail()     默认显示后5行

3、获取DataFrame的列

     1)获取DataFrame某一列

          df.x1或df['x1']:返回值是Series,可以理解为一个DataFrame是由多个Series组成的。

      2) 获取DataFrame某几列

          df_new = df[['x1','x2','x3']]

4、为某列赋值

      1) df['x1'] = range(10)

      2) df['x1'] = numpy.arange(10)

      3) df['x1'] = pd.Series(np.arange(10))

      说明:类似于创建Series

 5、为某列对应的特定行重新赋值

        df['x1'] = pd.Series([2,3],index=[0,1])

        将列为x1,行索引为0和1的值改为2,3

 6、获取DadaFrame的行

      for row in DataFrame.iterrows():

              print(row[0],row[1])

      #每个row是一个元祖,包含2个元素,row[0]是整型索引,row[1]是Series,所以从行的角度也可以看出,一个DataFrame是由多个Series组成的。

 7、DataFrame的转置

      df_new = df.T

1、粘贴板的io

      df = pd.read_clipboard()

      df.to_clipboard()

 2、csv的io

       df.to_csv('xxx.csv')

       df = pd.read_csv('xxx.csv')

  3、json的io

       df.to_json()

       pd.read_json(df.to_json())

   4、excel的io

        df.to_excel('xx.xlsx')

        df = pd.read_excel('xx.xlsx')

   5、df = pd.read_sql('')

        df.to_sql('')

 1、iloc

      sub_df = df.iloc[10:20,:]  选取DataFrame的10-20行,所有列数据

      sub_df = df.iloc[10:20,0:2]

      说明:iloc函数是位置索引,与索引的名字无关。

   2、loc

      sub_df = df.loc[10:20,:'movie_name']

      说明:loc是标签索引,10,20,'movie_name'  都是索引名字,与位置无关。

1、Series.reindex(index=['x1','x2','x3'],fill_value=10)

      将df重新索引,并且将NaN空值用10进行填充

2、Series.reindex(index=range(15),method='ffill')

     前项填充,后面的值用前面的值进行填充

     通过reindex想到,如果想新增一个空列或者空行,可以用reindex方法,同样地,想减少某些行或者某些列,也可以用reindex方法。

      继reindex之后删除行列的函数操作

      Series.drop('A')   #删除'A'所对应的值

      DataFrame.drop(label,axis) 

      label可以是行名也可以是列名,label是行的话axis是0,label是列的话axis是1。

     ** 删除行还可以用 del df['A']

nan是numpy的一种数据类型,np.nan,float类型

任何数据与nan的运算结果都是nan

1、nan in Series

      Series.isnull()  -->返回value为True或者False的Series

      Series.notnull()  -->返回value为True或者False的Series

      Series.dropna()  -->返回删除nan值后的Series

      Series.fillna(method='ffill')  -->前项插值,按照前面的值填充后面的空值

2、nan in DataFrame

      df.isnull()  -->返回value为True或者False的DataFrame

      df.notnull()  -->返回value为True或者False的DataFrame

      df.dropna(axis=0/1,how='any/all',thresh=None)

      说明:axis表示删除行为nan或者列为nan;

                any表示只要有一个为空,all表示行中的每个元素或者列中的每个元素为空;

                thresh是阈值的意思,表示某行或者某列nan的个数达到阈值的个数时才删除该行或该列。

      df.fillna(value=1)  --->所有的空值都填充为1

      df.fillna(value={0:0,1:1,2:2}) --->将0列的空值填为0,1列的空值填为1,2列的空值填为2,默认为填充列

      注意:fillna和dropna的特点,生成新的DataFrame,原来的DataFrame不变。

1、多重索引介绍

     Series = pd.Series(np.random.randn(6),index=[['1','1','1','2','2','2'],['a','b','c','a','b','c']])

    '1','2'为一级索引,'a','b','c'为二级索引

    df 可以看做是索引的'1','2'的Series

    Series['1']  -->Series

    Series['1']['a']  -->value

    Series[:,'a'] -->选择'1'和'2'中的'a'对应的值

2、多重索引格式转为二维DataFrame

    df = Series.unstack() -->转为二维DataFrame

3、多重索引在DataFrame中的操作

1、 map函数与apply函数、applymap函数的区别:

      1)map函数对Series中的每个元素作用;

      2)applymap函数对DataFrame中的每个元素作用;

      3)apply函数对对DataFrame和Series的一列做整体运算。

2、Series.replace(to_replace=[2,3,4],values=[20,30,40])  替换Series中多个值

    Series.replace({1:10,2:20})  将索引为1的值替换为10,将索引为2的值替换为20

    df.sum()  -->默认按照列进行求和,nan的值被忽略

    df.min()  -->默认按照列求最小值

    df.max()  -->默认按照列求最大值

    df.mean()  -->默认按照列求平均值

    df.describe()  -->默认按照列进行描述

    df.sum(axis=1)  -->按行求和,nan的值被忽略

    #axis=0表示对横轴进行操作,但是运算中表现为纵轴操作

    #axis=1表示对纵轴进行操作,但是运算中表现为横轴操作

 bins = [0,59,70,80,100],bins是分割范围

 score_cat = pd.cut(Series,bins)  --->得到catgory类型的数据

 DataFrame的分箱技术很棒啊!

 pd['catgory'] = pd.cut(df['a'],bins=[0,59,70,80,100],labels=['low','ok','good','great'])

 -->新增一列,将a列的值按照labels进行分类标记,good!!!

 #生成长度为3的随机字符串  pd.util.testing.rands(3)

1、按照一列分组

      g = df.groupby('city')

      g是分组类型数据,打印不出来,所以看不到,但是有属性和方法可以间接的了解

     1) g.groups  -->得到分的几个组,和每个组包含的索引

     2)g.get_group('BJ')  -->得到'BJ'所对应的组

     3)groupby = split +apply +combine

           g.mean()  -->求每组的平均值

           g.max()   -->求每组的最大值

           g.min()   -->求每组的最小值

           g.count()

           g.describe()

      4)g是一个可迭代对象,可以用list函数将其转化为list

          list(g) -- > [('组名1',DataFrame1),('组名2',DataFrame2),(),()]

          dict(list(g))  -->将其转化为字典

      同时可以通过for循环进行遍历操作:for item,desc in g:print(item,desc)

      #怪不得分组后不是DataFrame,因为元组的第一个元素是'分组名'。

2、按照多列分组

      g_new = df.groupby(['city','wind'])

      得到生成器((('分组1','分组2'),DataFrame),(),()...)

      g_new.get_group(('分组1','分组2'))

      for (name_1,name_2),group in g_new:

              print((name_1,name_2),group)

 g.mean()  -->求每组的平均值

 与g.agg('mean')方法一样

pd.pivot_table(df,index=['',''],aggfuc='sum',values=['',''])

index是分组的组名,values是透视表呈现结果的列,columns是values下的分解

#感觉透视表呈现的结果就是groupby+agg后的结果

#分析者需要对数据结构有一定的了解

df.sort_values(by='',ascending=True/False)[:10]  df可以索引

df.value_counts()  -->按值计数

df.['a'] = df['b'].apply(lambda x:x>0)  -->DataFrame中的True/False

通过g.size()可以看到被groupby之后的数据,得到的是一个Series

1、Series的排序:

    1)对值进行排序

    Series.sort_values()  --->直接对Series的值进行排序

    2)通过索引进行排序

    Series.sort_index() 

    #默认都是升序排列

2、DataFrame的排序

     df.sort_values(by='')  -->按照某列的顺序进行排序

    df['a'].sort_values()  -->返回对a列数据的排序结果,只返回a列

1、df.index = Series(['a','b','c'])  直接对index赋予新值

2、df.index = df.index.map(str.upper)

     map函数中只传入新的函数名即可

3、df.rename(index=str.upper,columns=str.lower)

      或者传递字典,进行一一转换

    pd.merge(df1,df2,on=None,how='left/right/inner/outer')

    pd.merge(df1,df2)  -->没有on参数默认先找相同的columns,然后在columns下找相同的values

    pd.merge(df1,df2,on='columns')  -->on参数是指按照指定列进行merge

    left:表示以左边的数据表为基准,进行填充右面的数据

    right:表示以右边的数据表为基准,填充左边的数据

    outer:以on的指定列的所有值为基准,填充两边的数据

    inner:默认inner,相同on指定的columns下的相同values对应的左右两边的数据

1、concat拼接

    pd.concat([Series1,Series2])

    pd.concat([df1,df2])  -- >上下叠加,将没有的列进行填充

2、combine组合

    Series1.combine_first(Series2)  -->用Series2的值去填充Series1中为空的值

    df1.combine_first(df2)  --->用df2将df1中的空值填充

    df['A'] = df['A'].apply(str.upper)  --->apply函数中也只输入函数名

    len(df)  -->求df的长度

    len(df['a'].unique())  -->查看a列中不重复数据的多少

    Series.plicated()  -->返回一列True/False的Series

    Series.drop_plicates()  -->删除重复值

    df.drop_plicates('a',keep='first/last')

    df.drop_plicates()  -->删除完全重复的行

    参数:'a'表示以a列为基准,删除重复值

              first表示保留第一个,last表示保留最后一个

    data_list = pd.date_range(start,end,period='D',freq)

    period='D',以天为单位

    freq = 'W' 以周为单位

    freq = 'W-Mon'以每周一位单位

    freq = '5H'  以5h为单位

    以data_range作为索引提取数据比较简单

    df[datetime(2017,9,1)]

    df['2017-09-01']

    df['20170901']

    df['201709']

    对时间序列数据进行分组聚合操作:

    s1.resample('M').mean()  -->以月为单位进行采样,然后求每组的平均值

    s1.resample('H').ffill()  -->前项填充

    s1.resample('H').bfill()  -->后项填充

补充:1)jupyter中可以执行linux命令,太棒了!

                !ls

                !more xxx.csv

                !pwd  等等

           2)jupyter 查看函数帮助的快捷键:摁住shift + tab  棒!!!

⑥ python数据分析使用的数据

1、对数据进行排序df.sort_values()
#读取数据
titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandas itanic_train.csv")
#用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru
2、缺失值判断及统计pandas.isnull()、pandas.isnull
空值统计方法一:df.isnull().sum():
#当不指定具体列时,统计整个df的缺失值个数
titanic_survival['Age'].isnull().sum()
通过len()函数统计缺失值
3、缺失值处理
处理缺失值可以分为两类:删除缺失值和缺失值插补。而缺失值插补又分为以下几种:
均值/中位数/众数插补
使用固定值(将缺失值的属性用一个常量代替)
最近邻插补(在记录中找到与缺失值样本最接近的样本的该属性插补)
回归方法(对带有缺失值的变量,根据已有数据和与其有关的其他变量建立拟合模型来预测缺失值)
插值法(利用已知点建立合适的插值函数f(x),未知值由对应点xi求出来近似代替)
下面,我们主要讨论删除缺失值,学习一些pandas缺失值删除的操作。
1)df.dropna(),舍弃含有任意缺失值的行
#等价于titanic_survival.dropna(axis=0) axis=0表示删除行,axis=1表示删除列
dropall=titanic_survival.dropna()
删除含任意空值的行
2)df.dropna()函数删除某个列中含有空值的行
现在这个数据中age、cabin、embarked都有缺失值,如果我们直接使用df.dropna()会删除掉这三列中都有空值的所有行,但是我们希望只删除age列中有空值的数据,那该如何处理呢?
直接使用df.dropna(subset=['column_list'])
drop_age_null=titanic_survival.dropna(subset=["Age"])
删除指定列中含有缺失值的行
pandas自定义函数

⑦ Python其实很简单 第二十一章 DataFrame数据处理

将Excel中的的数据读入数据框架DataFrame后,可以非常方便的进行各种数据处理。

21.1 列间求和

求总分(总分=语文+数学+英语)

对于上一章所提到的学生成绩表,仅用一个语句即可完成总分计算,并填充。

df['总分']=df['语文']+df['数学']+df['英语']

完整代码如下:

from pandas import read_excel

file='d:/student.xlsx' #见第18章表18-1

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['总分']=df['语文']+df['数学']+df['英语']

print(df.head()) #df.head()的作用是仅显示5行记录。

运行结果如下:

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

0 1 070101 王博宇 NaN NaN 84 71 93 248 NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 267 NaN

2 3 070103 李文博 NaN NaN 89 72 76 237 NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 267 NaN

4 5 070205 林若溪 NaN NaN 91 95 83 269 NaN

21.2替换

既可以将对满足条件的行和列的数据替换,也可以对整个集合的数据按照条件进行替换。

df['总分'].replace(310,'x',inplace=True)

将总分列的数值“310”替换为“x”。inplace=True表示改变原数据。

df.replace(76,0,inplace=True)

将整个DataFrame中的数值“76”替换为“0”。

df.replace([98,76,99],0,inplace=True)

将整个DataFrame中的数值“98,76,99”一次替换为“0”。

21.2排序

既可以将某一列作为关键字段排序,也可以将几个列分别作为主、次关键字段进行排序。排序既可以按升序排序,也可以按降序排序。

函数sort_values()的语法格式如下:

df.sort_values(by=[“col1”,”col2”,......,”coln”],ascending=False)

其中,coln表示列名,也可以是列名的列表;ascending表示排序方式,值为True表示升序,可以省缺,值为False表示降序。

如:

df=df.sort_values(by=['总分'],ascending=False)

表示按照“总分”从高到低排序。

df=df.sort_values(by=['总分','语文'],ascending=False)

表示按照“总分”从高到低排序,若“总分”相同,再按照“语文”成绩从高到低排序。

21.3 字段截取

函数slice()可以从某列中截取字符串。格式如下:

slice(start,stop)

其中,start表示开始位置;stop表示结束位置

例:

df['年级']=df['学号'].str.slice(0,2)

通过此语句可以截取学号字段的第1、2个字符,并赋值给年级字段。

21.4 记录抽取

可以抽取满足条件的记录。

例:抽取总分>300的记录。

df[df.总分>300]

抽取总分在300到310之间(包括300和310)的记录。

df[df.总分.between(306,310)]

抽取学号中包含“0803”的记录。这样可以非常方便的抽取某个班的信息。

df[df.学号.str.contains(񟚓',na=False)]

此处的na=False,含义是如遇到NaN这样的数据,直接做不匹配处理。

21.5修改记录

1、整列替换

我们在前面已经给整列填充过数据,填充时原来的数据就被覆盖了。

即如下语句:

df['总分']=df['语文']+df['数学']+df['英语']

2、个别修改

如将值‘99’替换为值‘100’,可用如下语句:

df.replace(ྟ',颼')

将指定列的值替,如将语文列和英语列的值‘99’替换为值‘100’,可用如下语句:

df.replace({'语文':99,'英语':99},100)

可用如下程序去验证:

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

print(df[(df.语文==99) |(df.英语==99)])

df=df.replace({'语文':99,'英语':99},100)

print(df[(df.语文==99) |(df.英语==99)])

运行结果为:

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

28 29 090802 丁能通 09 NaN 119 120 99 338 NaN

29 30 090203 沈丹妮 09 NaN 109 108 99 316 NaN

Empty DataFrame

Columns: [序号, 学号, 姓名, 年级, 班级, 语文, 数学, 英语, 总分, 名次]

Index: []

可以看出,第一个print()语句输出的结果中满足条件“语文或英语为99分”的有两条记录,替换语句执行以后,df中再没有满足条件“语文或英语为99分”的记录了。

21.6记录合并

函数concat()的格式如下:

concat([dataFrame1,dataFrame2,......],ignore_index=True)

其中,dataFrame1等表示要合并的DataFrame数据集合;ignore_index=True表示合并之后的重新建立索引。其返回值也是DataFrame类型。

concat()函数和append()函数的功能非常相似。

例:

import pandas #导入pandas模块

from pandas import read_excel #导入read_execel

file='d:/student.xlsx' #变量file表示文件路径,注意'/'的用法 数据见第18章表18-1

df=read_excel(file,sheet_name=0,converters={'学号':str})

# 将Excel文件导入到DataFrame变量中

df=df[:5] #截取df的前5个记录

print(df) #输出df

df1=df[:3] #截取df的前3个记录存入df1中

df2=df[3:5] #截取df的最后2个记录存入df2中

df3=pandas.concat([df2,df1]) #将df2与df1合并存入df3中

print(df3) #输出df3

运行结果如下:

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

由于合并时是将df1合并到df2中,可以看出,索引仍然保持原来的状态。

21.7统计次数

可以用如下方法统计出某个值在某行或者某个范围出现的次数。

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df=df[:5]

print(df)

print(df['语文'].value_counts())

输出结果如下:

序号 学号 姓名 年级 班级 语文 数学 英语 总分 名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陈冠涛 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

89 3

84 1

91 1

Name: 语文, dtype: int64

可以看出,通过value_counts()函数可以统计出列中各值出现的次数。

value_counts()函数的参数还有 :

ascending,当ascending=True时升序排列,当ascending=False时升序排列(此时该参数可省缺);

normalize,当normalize=True时,显示的不再是各值出现的次数,而是占比。

将上例中的语句print(df['语文'].value_counts())改为:

print(df['语文'].value_counts(ascending=True,normalize=True))

则输出结果变成了:

91 0.2

84 0.2

89 0.6

Name: 语文, dtype: float64

21.8按值查找

print(df['语文'].isin([84,91]))

它的作用是查找‘语文’列中值和isin所指的列表中元素一致的记录,如果找到结果为True,否则为False。

输出结果:

0 True

1 False

2 False

3 False

4 True

Name: 语文, dtype: bool

21.9数据分区

根据某个分区标准,将数据按照所属区域进行划分,并用相应的标签表示,可以用cut()方法来实现。

语法格式如下:

cut(series, bins, right=True, labels=NULL)

其中:

series表示需要分组的数据;

bins表示分组的依据,是一个列表,其元素为划分分区的边界值,如[0,72,96,120],就是划分3个分区,即0~72、72~96、96~120,默认的是“左包右不包”;

right表示分组时右边是否闭合;

labels表示分组的自定义标签,也可以不重新定义。

下面对上述学生成绩表中的语文成绩进行分组,并增加一个新的列“语文等级”。

import pandas as pd

from pandas import read_excel #导入read_execel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'学号':str})

df['年级']=df['学号'].str.slice(0,2)

df['班级']=df['学号'].str.slice(0,4)

df.总分=df.语文+df.数学+df.英语

bins=[0,72,96,max(df.语文)+1] #

lab=['不及格','及格','优秀']

grade=pd.cut(df.语文,bins,right=False,labels=lab)

df['语文等级']=grade

print(df.head())

print("语文成绩分等级统计结果:")

print(df['语文等级'].value_counts())


运行结果如下:

序号 学号 姓名 年级 班级 语文 数学 英语 总分 语文等级

0 1 070101 王博宇 07 0701 84 71 93 248 及格

1 2 070102 陈冠涛 07 0701 89 89 89 267 及格

2 3 070103 李文博 07 0701 89 72 76 237 及格

3 4 070204 姜海燕 07 0702 89 89 89 267 及格

4 5 070205 林若溪 07 0702 91 95 83 269 及格

语文成绩分等级统计结果:

及格 17

优秀 10

不及格 4

Name: 语文等级, dtype: int64

阅读全文

与pythondf排序相关的资料

热点内容
max加线命令 浏览:424
app胖瘦模式哪个好用 浏览:724
可以下载源码的软件 浏览:487
程序员写一天代码累吗 浏览:628
ie文件夹禁止访问 浏览:543
百川互联网程序员 浏览:783
linuxpython解释器 浏览:667
兴安得力软件加密狗 浏览:492
智能网络摄像头加密 浏览:574
软件毕业程序员培训 浏览:652
安卓陀螺仪低怎么办 浏览:247
一级建造师复习题集pdf 浏览:903
法理学pdf海默 浏览:392
服务器内存储器是用什么的 浏览:819
微帮同城分类信息源码 浏览:808
安卓系统ad是什么 浏览:473
python输出中不加占位符 浏览:596
linux文件夹权限控制 浏览:732
雅虎邮箱怎么加密码 浏览:822
为什么安卓手机登录不了苹果账号 浏览:537