python动态数据统计_如何高效地使用Python统计数据的频率

‘壹’ python 数据可视化：数据分布统计图和热图

本课将继续介绍 Seaborn 中的统计图。一定要牢记，Seaborn 是对 Matplotlib 的高级封装，它优化了很多古老的做图过程，因此才会看到一个函数解决问题的局面。

在统计学中，研究数据的分布情况，也是一个重要的工作，比如某些数据是否为正态分布——某些机器学习模型很在意数据的分布情况。

在 Matplotlib 中，可以通过绘制直方图将数据的分布情况可视化。在 Seaborn 中，也提供了绘制直方图的函数。

输出结果：

sns.distplot 函数即实现了直方图，还顺带把曲线画出来了——曲线其实代表了 KDE。

除了 sns.distplot 之外，在 Seaborn 中还有另外一个常用的绘制数据分布的函数 sns.kdeplot，它们的使用方法类似。

首先看这样一个示例。

输出结果：

① 的作用是设置所得图示的背景颜色，这样做的目的是让下面的 ② 绘制的图像显示更清晰，如果不设置 ①，在显示的图示中看到的就是白底图像，有的部分看不出来。

② 最终得到的是坐标网格，而且在图中分为三部分，如下图所示。

相对于以往的坐标网格，多出了 B 和 C 两个部分。也就是说，不仅可以在 A 部分绘制某种统计图，在 B 和 C 部分也可以绘制。

继续操作：

输出结果：

语句 ③ 实现了在坐标网格中绘制统计图的效果，jp.plot 方法以两个绘图函数为参数，分别在 A 部分绘制了回归统计图，在 B 和 C 部分绘制了直方图，而且直方图分别表示了对应坐标轴数据的分布，即：

我们把有语句 ② 和 ③ 共同实现的统计图，称为联合统计图。除了用 ② ③ 两句可以绘制这种图之外，还有一个函数也能够“两步并作一步”，具体如下：

输出结果：

‘贰’ 如何高效地使用Python统计数据的频率

之前用 Python 写过一个脚本，用来处理上千万用户的一些数据，其中有一个需求是统计用户的某一数据的去重数量。为了加快程序的速度，我启用了多进程。但不幸的是，程序跑了近一个星期，还没处理完。这时，我感觉到了不对，于是开始查看程序的性能瓶颈。
对于统计去重数，我是将用户的数据放到一个列表中，然后用 len(set(data)) 去统计去重数量。刚开始我以为这的数据量并不大，每个用户的数据不会过百，我并没有注意到有的用户会有上万条的数据，因此消耗了大量的时间（其实我的脚本消耗时间最大的地方是因为从远程 redis 中取大量数据时发生长时间的阻塞，甚至连接超时，最后我采用的方式分而治之，每次取少量的数据，这样大大的提高了性能）。
为了做优化，我开始寻求高效的方法。我发现，有大量的人认为采用字典效率会更高，即：
data_unique = {}.fromkeys(data).keys() len(data_unique)

于是，我做了下测试：
In [1]: import random In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)] In [3]: %timeit len(set(data)) 10 loops, best of 3: 39.7 ms per loop In [4]: %timeit len({}.fromkeys(data).keys()) 10 loops, best of 3: 43.5 ms per loop

由此可见，采用字典和采用集合的性能是差不多的，甚至可能还要慢些。
在 Python 中其实有很多高效的库，例如用 numpy、pandas 来处理数据，其性能接近于 C 语言。那么，我们就用 numpy 和 pandas 来解决这个问题，这里我还比较了获取去重数据的性能，代码如下：
import collections import random as py_random import timeit import numpy.random as np_random import pandas as pd DATA_SIZE = 10000000 def py_cal_len(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] len(set(data)) def pd_cal_len(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data_unique = data.value_counts() data_unique.size def py_count(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] collections.Counter(data) def pd_count(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data.value_counts() # Script starts from here if __name__ == "__main__": t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len") t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len") t3 = timeit.Timer("py_count()", setup="from __main__ import py_count") t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count") print t1.timeit(number=1) print t2.timeit(number=1) print t3.timeit(number=1) print t4.timeit(number=1)

运行结果：
12.438587904 0.435907125473 14.6431810856 0.258564949036

利用 pandas 统计数据的去重数和去重数据，其性能是 Python 原生函数的 10 倍以上。

‘叁’ Python 数据可视化：分类特征统计图

上一课已经体验到了 Seaborn 相对 Matplotlib 的优势，本课将要介绍的是 Seaborn 对分类数据的统计，也是它的长项。

针对分类数据的统计图，可以使用 sns.catplot 绘制，其完整参数如下：

本课使用演绎的方式来学习，首先理解这个函数的基本使用方法，重点是常用参数的含义。

其他的参数，根据名称也能基本理解。

下面就依据 kind 参数的不同取值，分门别类地介绍各种不同类型的分类统计图。

读入数据集：

然后用这个数据集制图，看看效果：

输出结果：

毫无疑问，这里绘制的是散点图。但是，该散点图的横坐标是分类特征 time 中的三个值，并且用 hue='kind' 又将分类特征插入到图像中，即用不同颜色的的点代表又一个分类特征 kind 的值，最终得到这些类别组合下每个记录中的 pulse 特征值，并以上述图示表示出来。也可以理解为，x='time', hue='kind' 引入了图中的两个特征维度。

语句 ① 中，就没有特别声明参数 kind 的值，此时是使用默认值 'strip'。

与 ① 等效的还有另外一个对应函数 sns.stripplot。

输出结果：

② 与 ① 的效果一样。

不过，在 sns.catplot 中的两个参数 row、col，在类似 sns.stripplot 这样的专有函数中是没有的。因此，下面的图，只有用 sns.catplot 才能简洁直观。

输出结果：

不过，如果换一个叫角度来说，类似 sns.stripplot 这样的专有函数，表达简单，参数与 sns.catplot 相比，有所精简，使用起来更方便。

仔细比较，sns.catplot 和 sns.stripplot 两者还是稍有区别的，虽然在一般情况下两者是通用的。

因此，不要追求某一个是万能的，各有各的用途，存在即合理。

不过，下面的声明请注意： 如果没有非常的必要，比如绘制分区图，在本课中后续都演示如何使用专有名称的函数。

前面已经初步解释了这个函数，为了格式完整，这里再重复一下，即 sns.catplot 中参数 kind='strip'。

如果非要将此函数翻译为汉语，可以称之为“条状散点图”。以分类特征为一坐标轴，在另外一个坐标轴上，根据分类特征，将该分类特征数据所在记录中的连续值沿坐标轴描点。

从语句 ② 的结果图中可以看到，这些点虽然纵轴的数值有相同的，但是没有将它们重叠。因此，我们看到的好像是“一束”散点，实际上，所有点的横坐标都应该是相应特征分类数据，也不要把分类特征的值理解为一个范围，分散开仅仅是为了图示的视觉需要。

输出结果：

④ 相对 ② 的图示，在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0，它可以表示点的“振动”，如果默认或者 jitter=True，意味着允许描点在某个范围振动——语句 ② 的效果；还可设置为某个 0 到 1 的浮点，表示许可振动的幅度。请对比下面的操作。

输出结果：

语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征，但是，如果感觉图有点乱，还可以这样做：

输出结果：

dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开，相对 ② 的效果有很大差异。

并且，在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。

sns.stripplot 函数中的其他有关参数，请读者使用帮助文档了解。

此函数即 sns.catplot 的参数 kind='swarm'。

输出结果：

再绘制一张简单的图，一遍研究这种图示的本质。

输出结果：

此图只使用了一个特征的数据，简化表象，才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据，依据其他特征的连续值在图中描点，并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是，与之不同的是，这些点不是随机分布的，它们经过调整之后，均匀对称分布在分类特征数值所在直线的两侧，这样能很好地表示数据的分布特点。但是，这种方式不适合“大数据”。

sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个，熟悉一番基本操作。

在分类维度上还可以再引入一个维度，用不同颜色的点表示另外一种类别，即使用 hue 参数来实现。

输出结果：

这里用 hue = 'smoker' 参数又引入了一个分类特征，在图中用不同颜色来区分。

如果觉得会 smoker 特征的值都混在一起有点乱，还可以使用下面方式把他们分开——老调重弹。

输出结果：

生成此效果的参数就是 dodge=True，它的作用就是当 hue 参数设置了特征之后，将 hue 的特征数据进行分类。

sns.catplot 函数的参数 kind 可以有三个值，都是用于绘制分类的分布图：

下面依次对这三个专有函数进行阐述。

‘肆’ 如何用python进行数据分析

1、Python数据分析流程及学习路径

数据分析的流程概括起来主要是：读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。

根据每个部分需要用到的工具，Python数据分析的学习路径如下：

导航:首页 > 编程语言 > python动态数据统计

python动态数据统计

与python动态数据统计相关的资料