导航:首页 > 编程语言 > python时间序列pandas

python时间序列pandas

发布时间:2023-11-29 17:56:42

1. python时间序列(2)

时期(period)表示的是时间区间,比如数日、数月、数季、数年等。Period类所 表示的就是这种数据类型,其构造函数需要用到一个字符串或整数,以及表11-4中 的频率:

这里,这个Period对象表示的是从2007年1月1日到2007年12月31日之间的整段时间。

只需对Period对象加上或减去一个整数即可达到根据其频率进行位移的效果:

如果两个Period对象拥有相同的频率,则它们的差就是它们之间的单位数量:

period_range函数可用于创建规则的时期范围:

PeriodIndex类保存了一组Period,它可以在任何pandas数据结构中被用作轴索引:

如果你有一个字符串数组,你也可以使用PeriodIndex类:

Period和PeriodIndex对象都可以通过其asfreq方法被转换成别的频率。假设我们有 一个年度时期,希望将其转换为当年年初或年末的一个月度时期。该任务非常简 单:

你可以将Period('2007','A-DEC')看做一个被划分为多个月度时期的时间段中的游 标。图11-1对此进行了说明。
对于一个不以12月结束的财政年度,月度子时期的归属情况就不一样了:

在将高频率转换为低频率时,超时期(superperiod)是由子时期(subperiod)所 属的位置决定的。例如,在A-JUN频率中,月份“2007年8月”实际上是属于周期“2008年”的:

完整的PeriodIndex或TimeSeries的频率转换方式也是如此:

这里,根据年度时期的第一个月,每年的时期被取代为每月的时期。
如果我们想要 每年的最后一个工作日,我们可以使用“B”频率,并指明想要该时期的末尾:

未完待续。。。

2. python中时间序列数据的一些处理方式

datetime.timedelta对象代表两个时间之间的时间差,两个date或datetime对象相减就可以返回一个timedelta对象。
利用以下数据进行说明:

如果我们发现时间相关内容的变量为int,float,str等类型,不方便后面的分析,就需要使用该函数转化为常用的时间变量格式:pandas.to_datetime

转换得到的时间单位如下:

如果时间序列格式不统一,pd.to_datetime()的处理方式:

当然,正确的转换是这样的:

第一步:to_datetime()
第二步:astype(datetime64[D]),astype(datetime64[M])

本例中:

order_dt_diff必须是Timedelta(Ɔ days 00:00:00')格式,可能是序列使用了diff()
或者pct_change()。

前者往往要通过'/np.timedelta'去掉单位days。后者其实没有单位。

假如我们要统计某共享单车一天内不同时间点的用户使用数据,例如

还有其他维度的提取,年、月、日、周,参见:
Datetime properties

注意 :.dt的对象必须为pandas.Series,而不可以是Series中的单个元素

3. Pandas-时间序列基础

Python标准库中包含用于日期和时间的数据类型,而且还有日历方面的功能,我们主要会用到datetime、time和calendar模块,datetime.datetime是用的最多的数据类型。

datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差.

可以给datetime对象加上或者减去一个或多个timedelta,会产生一个新对象:

利用str或者strftime方法,datetime对象和pandas的Timestamp对象可以被格式化为字符串:

datetime.strptime也可以用这些格式化编码将字符串转化为日期:

datetime.strptime是通过已知格式进行日期解析的最佳方式,但是每次都要编写格式定义很麻烦,尤其是对于一些常见的日期格式,这种情况下,可以用dateutil这个第三方包中的parser.parse方法,dateutil可以解析几乎所有人类能够理解的日期表示形式:

在国际通用格式中,日通常出现在月的前面,传入dayfirst=True即可:

pandas通常是用于处理成组日期的,不管这些日期是DataFrame的轴索引还是列,to_datetime方法可以解析多种不同的日期表示形式。

to_datetime可以处理缺失值,NAT是pandas中时间戳数据的NA值:

pandas最基本的时间序列类型就是以时间戳为索引的Series:

这里的Series索引不是普通的索引,而是DatetimeIndex,而ts变为了一个TimeSeries,同时,可以看到,pandas用Numpy的datetime64数据类型以纳秒形式存储时间戳。

跟其他Series一样,不同索引的时间序列之间的算数运算会自动对齐:

DateTimeIndex中的各个标量值是pandas的Timestamp对象.
由于TimeSeries是Series的一个子类,所以在索引以及数据选曲方面他们的行为是一样的,但是我们还可以传入一个可以被解释为日期的字符串来进行索引:

对于较长的时间序列,只需传入年或年月即可轻松选取数据的切片:

通过日期进行切片的方式只对规则Series有效:

还有一个等价的实例方法也可以截取两个日期之间的TimeSeries:

DataFrame也同样适用上面的规则

pandas中的时间序列一般被认为是不规则的,也就是说,没有固定的频率,对于大部分程序而言,这是无所谓的,但是,他常常需要以某种相对固定的频率进行分析,比如每月,每日,每15min等。pandas有一套标准时间序列频率以及用于重采样,频率推断,生成固定频率日期范围的工具.
例如,我们可以将之前的时间序列转换为一个具有固定频率(每日)的时间序列,只需调用resample即可.返回DatetimeIndexResampler,获取值使用asfreq():

生成日期范围使用date_range函数

默认情况下,date_range会产生按天计算的时间点,如果只传入起始或结束日期,那就还得传入一个表示一段时间的数字:

如果你不想按天生成数据,想要按照一定的频率生成,我们传入freq参数即可.如想按5小时生成数据:

如果你想生成一个由每月最后一个工作日组成的日期索引,可以使用BM频率:

date_range默认会保留起始和结束的时间戳的时间信息,但是如果我们想产生一组规范化到午夜的时间戳,normalize选项可以实现这个功能:

WOM(week of Month)是一种非常实用的频率类,它以WOM开头,它使你能获得诸如每月第三个星期五之类的日期:

4. python(pandas模块)

Pandas是Python的一个数据分析包,最初由AQR Capital
Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的Pydata开发team继续开发和维护,属于PyData项目的一部分,pandas最初被作为金融数据分析工具而开发出来,因此pandas为时间序列分析提供了很好的支持。

Pandas的名称来自于面板数据和python数据分析。panel
data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

Pandas数据结构:

Series:一维数组,与numpy中的一维array类似。二者与Python基本的数据结构list相近,Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在series中。

Time-series:以时间为索引的series。

DataFrame:二维的表格型数据结构,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。

Panel :三维的数组,可以理解为DataFrame的容器。

Panel4D:是像Panel一样的4维数据容器。

PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。

5. python数据分析时间序列如何提取一个月的数据

python做数据分析时下面就是提取一个月数据的教程1. datetime库

1.1 ​​datetime.date​​
1) ​​datetime.date.today()​​ 返回今日,输出的类型为date类

import datetime
today = datetime.date.today()
print(today)
print(type(today))
–> 输出的结果为:

2020-03-04
<class 'datetime.date'>
将输出的结果转化为常见数据类型(字符串)

print(str(today))
print(type(str(today)))
date = str(today).split('-')
year,month,day = date[0],date[1],date[2]
print('今日的年份是{}年,月份是{}月,日子是{}号'.format(year,month,day))
–> 输出的结果为:(转化为字符串之后就可以直接进行操作)

2020-03-04
<class 'str'>
今日的年份是2020年,月份是03月,日子是04号
2) ​​datetime.date(年,月,日)​​,获取当前的日期

date = datetime.date(2020,2,29)
print(date)
print(type(date))
–> 输出的结果为:

2020-02-29
<class 'datetime.date'>
1.2 ​芹喊​datetime.datetime​​
1) ​​datetime.datetime.now()​​输出当前时间,datetime类

now = datetime.datetime.now()
print(now)
print(type(now))
–> 输出的结果为:(注意秒后面有个不确定尾数)

2020-03-04 09:02:28.280783
<class 'datetime.datetime'>
可通过​​str()​​转化为字符串(和上面类似)

print(str(now))
print(type(str(now)))
–> 输出的结果为:(这里也可以跟上面的处理类似分别获得相应的数据,但是也可以使用下面更直接的方法来获取)

2020-03-04 09:04:32.271075
<class 'str'>
2) 通过自带的方法获取年月日,时分秒(这里返回的是​​int​​整型数据,注意区别)

now = datetime.datetime.now()
print(now.year,type(now.year))
print(now.month,type(now.month))
print(now.day,type(now.day))
print(now.hour,type(now.hour))
print(now.minute,type(now.minute))
print(now.second,type(now.second))
print(now.date(),type(now.date()))
print(now.date().year,type(now.date().year))
–> 输出的结果为:(首先注意输出中倒数第二个还是上面的​​纯档datetime.date​​​对象,这里是用来做时间对比的,同时除了这里的​​datetime.datetime​​​有这种方法,​​datetime.date​​​对象也有。因为此方法获取​​second​​是取的整型数据,自然最后的不确定尾数就被取整处理掉了)

2020 <class 'int'>
3 <class 'int'>
4 <class 'int'>
9 <class 'int'>
12 <class '做首乱int'>
55 <class 'int'>
2020-03-04 <class 'datetime.date'>
2020 <class 'int'>

阅读全文

与python时间序列pandas相关的资料

热点内容
解放战争pdf王树增 浏览:681
python压测app接口 浏览:951
抖音app怎么推荐 浏览:98
歌库服务器能做其他什么用途 浏览:95
安卓44虚拟机怎么root 浏览:38
程序员瘦身c盘空间 浏览:243
dell服务器温度怎么看 浏览:303
游戏服务器地址是什么 浏览:69
C语言经过编译之后的程序是 浏览:160
编程设计一个简易计算机界面 浏览:516
游戏压缩包损坏 浏览:485
压缩包图标下载 浏览:229
日本解压喜剧 浏览:38
芜湖程序员兼职如何接 浏览:368
句译app怎么用 浏览:342
vs2010编译c怎么用 浏览:104
摩拜单车没app怎么退款 浏览:469
苹果手机下载的app怎么变色了 浏览:903
韵母app怎么写 浏览:603
命令提示符是中文 浏览:167