python如何做幂律分布_Python数据分析 | 数据描述性分析

1. python数据分析 | 数据描述性分析

首先导入一些必要的数据处理包和可视化的包，读文档数据并通过前几行查看数据字段。

对于我的数据来说，由于数据量比较大，因此对于缺失值可以直接做删除处理。

得到最终的数据，并提取需要的列作为特征。

对类别数据进行统计：

类别型字段包括location、cpc_class、pa_country、pa_state、pa_city、assignee六个字段，其中：

单变量统计描述是数据分析中最简单的形式，其中被分析的数据只包含一个变量，不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。
单变量数据统计描述从集中趋势上看，指标有：均值，中位数，分位数，众数；从离散程度上看，指标有：极差、四分位数、方差、标准差、协方差、变异系数，从分布上看，有偏度，峰度等。需要考虑的还有极大值，极小值（数值型变量）和频数，构成比（分类或等级变量）。

对于数值型数据，首先希望了解一下数据取值范围的分布，因此可以用统计图直观展示数据分布特征，如：柱状图、正方图、箱式图、频率多边形和饼状图。

按照发布的时间先后作为横坐标，数值范围的分布情况如图所示.

还可以根据最终分类的结果查看这些数值数据在不同类别上的分布统计。

箱线图可以更直观的查看异常值的分布情况。

异常值指数据中的离群点，此处定义超出上下四分位数差值的1.5倍的范围为异常值，查看异常值的位置。

参考：
python数据分析之数据分布 - yancheng111 - 博客园
python数据统计分析 -

科尔莫戈罗夫检验(Kolmogorov-Smirnov test)，检验样本数据是否服从某一分布，仅适用于连续分布的检验。下例中用它检验正态分布。

在使用k-s检验该数据是否服从正态分布，提出假设：x从正态分布。最终返回的结果，p-value=0.9260909172362317，比指定的显着水平（一般为5%）大，则我们不能拒绝假设：x服从正态分布。这并不是说x服从正态分布一定是正确的，而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受，认为x服从正态分布。如果p-value小于我们指定的显着性水平，则我们可以肯定的拒绝提出的假设，认为x肯定不服从正态分布，这个拒绝是绝对正确的。

衡量两个变量的相关性至少有以下三个方法：

皮尔森相关系数（Pearson correlation coefficient）是反应俩变量之间线性相关程度的统计量，用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间，以及自变量和因变量之间的相关性。

返回结果的第一个值为相关系数表示线性相关程度，其取值范围在[-1,1]，绝对值越接近1，说明两个变量的相关性越强，绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value，统计学上，一般当p-value<0.05时，可以认为两变量存在相关性。

斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data ) ，它主要用于评价顺序变量间的线性相关关系，在计算过程中，只考虑变量值的顺序（rank, 秩或称等级），而不考虑变量值的大小。常用于计算类型变量的相关性。

返回结果的第一个值为相关系数表示线性相关程度，本例中correlation趋近于1表示正相关。第二个值为p-value，p-value越小，表示相关程度越显着。

kendall ：

也可以直接对整体数据进行相关性分析，一般来说，相关系数取值和相关强度的关系是：0.8-1.0 极强 0.6-0.8 强 0.4-0.6 中等 0.2-0.4 弱 0.0-0.2 极弱。

2. 114 11 个案例掌握 Python 数据可视化--美国气候研究

自哥本哈根气候会议之后，全球日益关注气候变化和温室效应等问题，并于会后建立了全球碳交易市场，分阶段分批次减碳。本实验获取了美国 1979 - 2011 年间 NASA 等机构对美国各地日均最高气温、降雨量等数据，研究及可视化了气候相关指标的变化规律及相互关系。
输入并执行魔法命令 %matplotlib inline，并去除图例边框。

数据集介绍：
本数据集特征包括美国 49 个州（State），各州所在的地区（Region），统计年（Year），统计月（Month），平均光照（Avg Daily Sunlight），日均最大空气温度（Avg Daily Max Air Temperature ），日均最大热指数（Avg Daily Max Heat Index ），日均降雨量（Avg Daily Precipitation ），日均地表温度（Avg Day Land Surface Temperature）。
各特征的年度区间为：

导入数据并查看前 5 行。

筛选美国各大区域的主要气候指数，通过 sns.distplot 接口绘制指数的分布图。

从运行结果可知：
光照能量密度（Sunlight），美国全境各地区分布趋势大致相同，均存在较为明显的两个峰（强光照和弱光照）。这是因为非赤道国家受地球公转影响，四季光照强度会呈现出一定的周期变化规律；
从地理区位能看出，东北部光照低谷明显低于其他三个区域；
日均最高空气温度（Max Air Temperature），美国全境各地区表现出较大差异，东北部和中西部趋势大致相同，气温平缓期较长，且包含一个显着的尖峰；西部地区平缓期最长，全年最高温均相对稳定；南部分布则相对更为集中；
日均地表温度（Land Surface Temperature），与最高空气温度类似，不同之处在于其低温区分布更少；
最大热指数（Max Heat Index），西部与中西部分布较为一致，偏温和性温度，东北部热指数偏高，南部偏低；
降雨量（Precipitation），西部明显偏小，南部与东北部大致相同，中西部相对较多。

结合地理知识做一个总结:
东北部及大多数中西部地区，属于温带大陆性气候，四季分明，夏季闷热，降雨较多。
西部属于温带地中海气候，全年气候温和，并且干燥少雨，夏季气候温和，最高温度相对稳定。
南部沿海一带，终年气候温暖，夏季炎热，雨水充沛。

按月计算美国各地区降雨量均值及标准偏差，以均值 ± 一倍标准偏差绘制各地区降雨量误差线图。

从运行结果可知：
在大多数夏季月份，西部地区降雨量远小于其他地区；
西部地区冬季月降雨量高于夏季月；
中西部地区是较为典型的温带大陆性气候，秋冬降雨逐渐减少，春夏降雨逐渐升高；
南部地区偏向海洋性气候，全年降雨量相对平均。

需要安装joypy包。

日均最高气温变化趋势
通过 joypy 包的 joyplot 接口，可以绘制带堆积效应的直方分布曲线，将 1980 年 - 2008 年的日均最高温度按每隔 4 年的方式绘制其分布图，并标注 25%、75% 分位数。

从运行结果可知：
1980 - 2008 年区间，美国全境日均最高温度分布的低温区正逐渐升高，同时高温区正逐渐降低，分布更趋向于集中；
1980 - 2008 年区间，美国全境日均最高温度的 25% 分位数和 75% 分位数有少量偏离但并不明显。
日均降雨量变化趋势
同样的方式对降雨量数据进行处理并查看输出结果。

筛选出加州和纽约州的日均降雨量数据，通过 plt.hist 接口绘制降雨量各月的分布图。

从运行结果可知：
加州地区降雨量多集中在 0 - 1 mm 区间，很少出现大雨，相比而言，纽约州则显得雨量充沛，日均降雨量分布在 2 - 4 mm 区间。

直方图在堆积效应下会被覆盖大多数细节，同时表达聚合、离散效应的箱线图在此类问题上或许是更好的选择。
通过 sns.boxplot 接口绘制加州和纽约州全年各月降雨量分布箱线图.

从箱线图上，我们可以清晰地对比每个月两个州的降雨量分布，既可以看到集中程度，例如七月的加州降雨量集中在 0.1 - 0.5 mm 的窄区间，说明此时很少会有大雨；又可以看到离散情况，例如一月的加州，箱线图箱子（box）部分分布较宽，且上方 10 mm 左右存在一个离散点，说明此时的加州可能偶尔地会出现大到暴雨。

视觉上更为美观且简约的是摆动的误差线图，实验 “美国全境降雨量月度分布” 将所有类别标签的 x 位置均放于同一处，导致误差线高度重合。可通过调节 x 坐标位置将需要对比的序列紧凑排布。

从输出结果可以看出，加州冬季的降雨量不确定更强，每年的的十一月至次年的三月，存在降雨量大，且降雨量存在忽多忽少的现象（误差线长）。

上面的实验均在研究单变量的分布，但经常性地，我们希望知道任意两个变量的联合分布有怎样的特征。
核密度估计，是研究此类问题的主要方式之一， sns.kdeplot 接口通过高斯核函数计算两变量的核密度函数并以等高线的形式绘制核密度。

从运行结果可知：
加州在高温区和低降雨期存在一个较为明显的高密度分布区（高温少雨的夏季）；
纽约州在高温及低温区均存在一个高密度的分布区，且在不同温区降雨量分布都较为均匀。

将美国全境的降雨量与空气温度通过 plt.hist2d 接口可视化。

从运行结果可知：
美国全境最高密度的日均高温温度区域和降雨量区间分别为，78 F （约等于 25 C）和 2.2 mm 左右，属于相对舒适的生活气候区间。
美国全境降雨量与空气温度的关系-核密度估计
在上面实验基础上，在 x， y 轴上分别通过 sns.rugplot 接口绘制核密度估计的一维分布图，可在一张绘图平面上同时获取联合分布和单变量分布的特征。

美国全境降雨量与空气温度的关系-散点分布和直方分布
sns.jointplot 接口通过栅格的形式，将单变量分布用子图的形式进行分别绘制，同时通过散点图进行双变量关系的展示，也是一种较好的展现数据分布的方式。

上面两个实验研究了双变量分布的可视化，以下研究 3 变量聚合结果的可视化。
通过 sns.heatmap 接口可实现对透视数据的可视化，其原理是对透视结果的值赋予不同的颜色块，以可视化其值的大小，并通过颜色条工具量化其值大小。

上面的两个实验可视化了各州随年份日均最高温度的中位数变化趋势，从图中并未看出有较为显着地变化。
以下通过 t 检验的方式查看统计量是否有显着性差异。stats.ttest_ind 接口可以输出 1980 年与 2010 年主要气候指数的显着性检验统计量及 p 值。

从运行结果可以看出：
检验结果拒绝了降雨量相等的原假设，即 1980 年与 2010 年两年间，美国降雨量是不同的，同时没有拒绝日均日照、日均最大气温两个变量相等的原假设，说明气温未发生显着性变化。

导航:首页 > 编程语言 > python如何做幂律分布

python如何做幂律分布

与python如何做幂律分布相关的资料