python直方图统计_如何在Python中实现这五类强大的概率分布

① python 数据可视化：绘制箱线图、饼图和直方图

上一课介绍了柱形图和条形图，本课将介绍另外几种统计图表。

Box Plot 有多种翻译，盒须图、盒式图、盒状图或箱线图、箱形图等，不管什么名称，它的基本结构是这样的：

这种图是由美国着名统计学家约翰·图基（John Tukey）于 1977 年发明的，它能显示出一组数据的上限、下限、中位数及上下四分位数。

为了更深入理解箱线图的含义，假设有这样一组数据：[1, 3, 5, 8, 10,11, 16, 98 ]，共有 8 个数字。

首先要计算箱线图中的“四分位数”，注意不是 4 个数：

对于已经排序的数据 [1, 3, 5, 8, 10,11, 16, 98 ]，下四分位数（Q1）的位置是数列中从小到大第 2.25 个数，当然是不存在这个数字的——如果是第 2 个或者第 3 个，则存在。但是，可以用下面的原则，计算出此位置的数值。

四分位数等于与该位置两侧的两个整数的加权平均数，此权重取决于相对两侧整数的距离远近，距离越近，权重越大，距离越远，权重越小，权数之和等于 1。

根据这个原则，可以分别计算本例中数列的 3 个四分位数。

在此计算基础上，还可以进一步计算四分位间距和上限、下限的数值。

先看一个简单示例，了解基本的流程。

输出结果：

这里绘制了两张箱线图，一张没有显示平均值，另外一张显示了平均值，所使用的方法就是 boxplot，其完整参数列表为：

参数很多，不要担心记忆问题，更别担心理解问题。首先很多参数都是可以“望文生义”的，再有，与以前所使用的其他方法（函数）的参数含义也大同小异。

输出结果：

所谓的“凹槽”，不是简单形状的改变，左右折线的上限区间表示了数据分布的置信区间，横线依然是上限和下限。

② Python数据分析：可视化

本文是《数据蛙三个月强化课》的第二篇总结教程，如果想要了解 数据蛙社群 ，可以阅读 给DataFrog社群同学的学习建议 。温馨提示：如果您已经熟悉python可视化内容,大可不必再看这篇文章，或是之挑选部分文章

对于我们数据分析师来说，不仅要自己明白数据背后的含义，而且还要给老板更直观的展示数据的意义。所以，对于这项不可缺少的技能，让我们来一起学习下吧。

画图之前，我们先导入包和生成数据集

我们先看下所用的数据集

折线图是我们观察趋势常用的图形，可以看出数据随着某个变量的变化趋势，默认情况下参数 kind="line" 表示图的类型为折线图。

对于分类数据这种离散数据，需要查看数据是如何在各个类别之间分布的，这时候就可以使用柱状图。我们为每个类别画出一个柱子。此时，可以将参数 kind 设置为 bar 。

条形图就是将竖直的柱状图翻转90度得到的图形。与柱状图一样，条形图也可以有一组或多种多组数据。

水平条形图在类别名称很长的时候非常方便，因为文字是从左到右书写的，与大多数用户的阅读顺序一致，这使得我们的图形容易阅读。而柱状图在类别名称很长的时候是没有办法很好的展示的。

直方图是柱形图的特殊形式，当我们想要看数据集的分布情况时，选择直方图。直方图的变量划分至不同的范围，然后在不同的范围中统计计数。在直方图中，柱子之间的连续的，连续的柱子暗示数值上的连续。

箱线图用来展示数据集的描述统计信息，也就是[四分位数]，线的上下两端表示某组数据的最大值和最小值。箱子的上下两端表示这组数据中排在前25%位置和75%位置的数值。箱中间的横线表示中位数。此时可以将参数 kind 设置为 box。

如果想要画出散点图，可以将参数 kind 设置为 scatter，同时需要指定 x 和 y。通过散点图可以探索变量之间的关系。

饼图是用面积表示一组数据的占比，此时可以将参数 kind 设置为 pie。

我们刚开始学习的同学，最基本应该明白什么数据应该用什么图形来展示，同学们来一起总结吧。

③ python绘图篇

1，xlable,ylable设置x，y轴的标题文字。

2，title设置标题。

3，xlim,ylim设置x,y轴显示范围。

plt.show()显示绘图窗口，通常情况下，show（）会阻碍程序运行，带-wthread等参数的环境下，窗口不会关闭。

plt.saveFig（）保存图像。

面向对象绘图

1，当前图表和子图可以用gcf(),gca()获得。

subplot()绘制包含多个图表的子图。

configure subplots,可调节子图与图表边框距离。

可以通过修改配置文件更改对象属性。

图标显示中文

1，在程序中直接指定字体。

2，在程序开始修改配置字典reParams.

3，修改配置文件。

Artist对象

1，图标的绘制领域。

2，如何在FigureCanvas对象上绘图。

3，如何使用Renderer在FigureCanvas对象上绘图。

FigureCanvas和Render处理底层图像操作，Artist处理高层结构。

分为简单对象和容器对象，简单的Aritist是标准的绘图元件，例如Line 2D,Rectangle,Text,AxesImage等，而容器类型包含许多简单的的 Aritist对象，使他们构成一个整体，例如Axis,Axes,Figure等。

直接创建Artist对象进项绘图操作步奏：

1，创建Figure对象（通过figure（）函数，会进行许多初始化操作，不建议直接创建。）

2，为Figure对象创建一个或多个Axes对象。

3，调用Axes对象的方法创建各类简单的Artist对象。

Figure容器

如何找到指定的Artist对象。

1，可调用add_subplot()和add_axes()方法向图表添加子图。

2，可使用for循环添加栅格。

3，可通过transform修改坐标原点。

Axes容器

1，patch修改背景。

2，包含坐标轴，坐标网格，刻度标签，坐标轴标题等内容。

3，get_ticklabels(),,get-ticklines获得刻度标签和刻度线。

1，可对曲线进行插值。

2，fill_between()绘制交点。

3，坐标变换。

4，绘制阴影。

5，添加注释。

1，绘制直方图的函数是

2，箱线图（Boxplot）也称箱须图（Box-whisker Plot），是利用数据中的五个统计量：最小值、第一四分位

数、中位数、第三四分位数与最大值来描述数据的一种方法，它可以粗略地看出数据是否具有对称性以及分

布的分散程度等信息，特别可以用于对几个样本的比较。

3，饼图就是把一个圆盘按所需表达变量的观察数划分为若干份，每一份的角度（即面积）等价于每个观察

值的大小。

4,散点图

5,QQ图

低层绘图函数

类似于barplot()，dotchart()和plot()这样的函数采用低层的绘图函数来画线和点，来表达它们在页面上放置的位置以及其他各种特征。

在这一节中，我们会描述一些低层的绘图函数，用户也可以调用这些函数用于绘图。首先我们先讲一下R怎么描述一个页面；然后我们讲怎么在页面上添加点，线和文字；最后讲一下怎么修改一些基本的图形。

绘图区域与边界

R在绘图时，将显示区域划分为几个部分。绘制区域显示了根据数据描绘出来的图像，在此区域内R根据数据选择一个坐标系，通过显示出来的坐标轴可以看到R使用的坐标系。在绘制区域之外是边沿区，从底部开始按顺时针方向分别用数字1到4表示。文字和标签通常显示在边沿区域内，按照从内到外的行数先后显示。

添加对象

在绘制的图像上还可以继续添加若干对象，下面是几个有用的函数，以及对其功能的说明。

•points(x, y, ...)，添加点

•lines(x, y, ...)，添加线段

•text(x, y, labels, ...)，添加文字

•abline(a, b, ...)，添加直线y=a+bx

•abline(h=y, ...)，添加水平线

•abline(v=x, ...)，添加垂直线

•polygon(x, y, ...)，添加一个闭合的多边形

•segments(x0, y0, x1, y1, ...)，画线段

•arrows(x0, y0, x1, y1, ...)，画箭头

•symbols(x, y, ...)，添加各种符号

•legend(x, y, legend, ...)，添加图列说明

④ python绘制直方图设置y数量

python绘制直方图设置y数量需要用到matplotlib_pyplot_hist方法。Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计，作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构，还能简单有效地面向对象编程。Python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。

⑤ python可视化数据分析常用图大集合（收藏）

python数据分析常用图大集合：包含折线图、直方图、垂直条形图、水平条形图、饼图、箱线图、热力图、散点图、蜘蛛图、二元变量分布、面积图、六边形图等12种常用可视化数据分析图，后期还会不断的收集整理，请关注更新！

以下默认所有的操作都先导入了numpy、pandas、matplotlib、seaborn

一、折线图

折线图可以用来表示数据随着时间变化的趋势

Matplotlib

plt.plot(x, y)

plt.show()

Seaborn

df = pd.DataFrame({'x': x, 'y': y})

sns.lineplot(x="x", y="y", data=df)

plt.show()

二、直方图

直方图是比较常见的视图，它是把横坐标等分成了一定数量的小区间，然后在每个小区间内用矩形条（bars）展示该区间的数值

Matplotlib

Seaborn

三、垂直条形图

条形图可以帮我们查看类别的特征。在条形图中，长条形的长度表示类别的频数，宽度表示类别。

Matplotlib

Seaborn

1plt.show()

四、水平条形图

五、饼图

六、箱线图

箱线图由五个数值点组成：最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。

可以帮我们分析出数据的差异性、离散程度和异常值等。

Matplotlib

Seaborn

七、热力图

力图，英文叫 heat map，是一种矩阵表示方法，其中矩阵中的元素值用颜色来代表，不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。

通过 seaborn 的 heatmap 函数，我们可以观察到不同年份，不同月份的乘客数量变化情况，其中颜色越浅的代表乘客数量越多

八、散点图

散点图的英文叫做 scatter plot，它将两个变量的值显示在二维坐标中，非常适合展示两个变量之间的关系。

Matplotlib

Seaborn

九、蜘蛛图

蜘蛛图是一种显示一对多关系的方法，使一个变量相对于另一个变量的显着性是清晰可见

十、二元变量分布

二元变量分布可以看两个变量之间的关系

十一、面积图

面积图又称区域图，强调数量随时间而变化的程度，也可用于引起人们对总值趋势的注意。

堆积面积图还可以显示部分与整体的关系。折线图和面积图都可以用来帮助我们对趋势进行分析，当数据集有合计关系或者你想要展示局部与整体关系的时候，使用面积图为更好的选择。

十二、六边形图

六边形图将空间中的点聚合成六边形，然后根据六边形内部的值为这些六边形上色。

原文至：https://www.py.cn/toutiao/16894.html

⑥ Python 数据可视化：数据分布统计图和热图

本课将继续介绍 Seaborn 中的统计图。一定要牢记，Seaborn 是对 Matplotlib 的高级封装，它优化了很多古老的做图过程，因此才会看到一个函数解决问题的局面。

在统计学中，研究数据的分布情况，也是一个重要的工作，比如某些数据是否为正态分布——某些机器学习模型很在意数据的分布情况。

在 Matplotlib 中，可以通过绘制直方图将数据的分布情况可视化。在 Seaborn 中，也提供了绘制直方图的函数。

输出结果：

sns.distplot 函数即实现了直方图，还顺带把曲线画出来了——曲线其实代表了 KDE。

除了 sns.distplot 之外，在 Seaborn 中还有另外一个常用的绘制数据分布的函数 sns.kdeplot，它们的使用方法类似。

首先看这样一个示例。

输出结果：

① 的作用是设置所得图示的背景颜色，这样做的目的是让下面的 ② 绘制的图像显示更清晰，如果不设置 ①，在显示的图示中看到的就是白底图像，有的部分看不出来。

② 最终得到的是坐标网格，而且在图中分为三部分，如下图所示。

相对于以往的坐标网格，多出了 B 和 C 两个部分。也就是说，不仅可以在 A 部分绘制某种统计图，在 B 和 C 部分也可以绘制。

继续操作：

输出结果：

语句 ③ 实现了在坐标网格中绘制统计图的效果，jp.plot 方法以两个绘图函数为参数，分别在 A 部分绘制了回归统计图，在 B 和 C 部分绘制了直方图，而且直方图分别表示了对应坐标轴数据的分布，即：

我们把有语句 ② 和 ③ 共同实现的统计图，称为联合统计图。除了用 ② ③ 两句可以绘制这种图之外，还有一个函数也能够“两步并作一步”，具体如下：

输出结果：

⑦ python画hist直方图

简单说下图形选择啦，通常我们最常用的图形是折线图、扇形图、条形图，它们的功能简单概括为：
折线图：表示变化情况；
扇形图：表示各类别的分布占比情况；
条形图：表示具体数值；

接下来要说的直方图是以条形图的形式展现的，在统计学中， 直方图 （英语：Histogram）是一种对数据分布情况的图形表示。

以下展示了python画直方图的几种方式，这里涉及到了3个包：matplotlib、pandas、seanborn。
1、使用 matplotlib.pyplot.hist 函数（本文主要讲解该方法画直方图）

2、使用 pandas.DataFrame.plot.hist 函数

3、使用 pandas.DataFrame.hist 函数

4、使用 seaborn.distplot 函数

以下为 matplotlib.pyplot.hist 函数介绍：

参数：

返回值：

模拟真实场景：我们通过分析打分，给1000个客户进行了排名，排名越靠前，说明客户越优异，为了找到特定的200个客户的排名处于这1000个客户中的位置，使用了直方图对比的方式。以下使用的数据是为模拟场景，随机出来的结果排名比较靠后，所以这些客户质量并不高：

hist： https://my.oschina.net/u/2474629/blog/1793008
matplotlib中文乱码： https://www.jianshu.com/p/c0f19f87036f

⑧ 如何在Python中实现这五类强大的概率分布

R编程语言已经成为统计分析中的事实标准。但在这篇文章中，我将告诉你在Python中实现统计学概念会是如此容易。我要使用Python实现一些离散和连续的概率分布。虽然我不会讨论这些分布的数学细节，但我会以链接的方式给你一些学习这些统计学概念的好资料。在讨论这些概率分布之前，我想简单说说什么是随机变量（random variable）。随机变量是对一次试验结果的量化。

举个例子，一个表示抛硬币结果的随机变量可以表示成

Python

X = {1 如果正面朝上,

2 如果反面朝上}

随机变量是一个变量，它取值于一组可能的值（离散或连续的），并服从某种随机性。随机变量的每个可能取值的都与一个概率相关联。随机变量的所有可能取值和与之相关联的概率就被称为概率分布（probability distributrion）。

我鼓励大家仔细研究一下scipy.stats模块。

概率分布有两种类型：离散（discrete）概率分布和连续（continuous）概率分布。

离散概率分布也称为概率质量函数（probability mass function）。离散概率分布的例子有伯努利分布（Bernoulli distribution）、二项分布（binomial distribution）、泊松分布（Poisson distribution）和几何分布（geometric distribution）等。

连续概率分布也称为概率密度函数（probability density function），它们是具有连续取值（例如一条实线上的值）的函数。正态分布（normal distribution）、指数分布（exponential distribution）和β分布（beta distribution）等都属于连续概率分布。

若想了解更多关于离散和连续随机变量的知识，你可以观看可汗学院关于概率分布的视频。

二项分布（Binomial Distribution）

服从二项分布的随机变量X表示在n个独立的是/非试验中成功的次数，其中每次试验的成功概率为p。

E(X) =np, Var(X) =np(1−p)

如果你想知道每个函数的原理，你可以在IPython笔记本中使用help file命令。E(X)表示分布的期望或平均值。

键入stats.binom?了解二项分布函数binom的更多信息。

二项分布的例子：抛掷10次硬币，恰好两次正面朝上的概率是多少？

假设在该试验中正面朝上的概率为0.3，这意味着平均来说，我们可以期待有3次是硬币正面朝上的。我定义掷硬币的所有可能结果为k = np.arange(0,11)：你可能观测到0次正面朝上、1次正面朝上，一直到10次正面朝上。我使用stats.binom.pmf计算每次观测的概率质量函数。它返回一个含有11个元素的列表（list），这些元素表示与每个观测相关联的概率值。

结语（Conclusion）

概率分布就像盖房子的蓝图，而随机变量是对试验事件的总结。我建议你去看看哈佛大学数据科学课程的讲座，Joe Blitzstein教授给了一份摘要，包含了你所需要了解的关于统计模型和分布的全部。

导航:首页 > 编程语言 > python直方图统计

python直方图统计

与python直方图统计相关的资料