① 如何用python进行数据分析
1、Python数据分析流程及学习路径
数据分析的流程概括起来主要是:读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。
根据每个部分需要用到的工具,Python数据分析的学习路径如下:
相关推荐:《Python入门教程》
2、利用Python读写数据
Python读写数据,主要包括以下内容:
我们以一小段代码来看:
可见,仅需简短的两三行代码即可实现Python读入EXCEL文件。
3、利用Python处理和计算数据
在第一步和第二步,我们主要使用的是Python的工具库NumPy和pandas。其中,NumPy主要用于矢量化的科学计算,pandas主要用于表型数据处理。
4、利用Python分析建模
在分析和建模方面,主要包括Statsmdels和Scikit-learn两个库。
Statsmodels允许用户浏览数据,估计统计模型和执行统计测试。可以为不同类型的数据和每个估算器提供广泛的描述性统计,统计测试,绘图函数和结果统计列表。
Scikit-leran则是着名的机器学习库,可以迅速使用各类机器学习算法。
5、利用Python数据可视化
数据可视化是数据工作中的一项重要内容,它可以辅助分析也可以展示结果。
② 利用Python对天猫店铺销售进行分析.下
<p>相隔两个月,爬虫任务完成了。上次说道( 利用Python对天猫店铺销售进行分析.上 ),后续要完成四个功能,包括:</p>
<p>在上一个任务完成之后,任务的最后是通过crontab设置每天8点,13点,18点,23点,定时采集任务,而该篇内容的目的就是在每天23点最后一次任务完成之后,对该天采集的数据进行处理,时间设定在23点30分,也是采用crontab来定时开启。</p>
<p>这个只要通过SQLite将每天收集的数据重新提取出来,由于我们的当天的销售数据是收集在SCOUNT表格中,而数据的列名称是依据时间来命名,为了获得当天四个时间点采集的销售数据,需要先获得列名称。</p>
<p>在SQLite里面,可以通过 Pragma 获得所有的列名称信息,Pragma有两个功能,包括更改内部操作以及获得表格固有数据,通过其中的table_info,既可以获得列名称信息,所有列名称信息获得后,通过 list comprehensions (这个实在不知道怎么翻译),可以获得今天的新生成的4个销售数据列:</p>
<p>然后就是获得进行的销售数据,由于每个SKU一天将采集四次数据,并且收集的SKU有下架的可能,SKU列表中的不是每个SKU都有可能被采集,所以对采集出来需要的数据需要 dropna ,并且需要将SKU信息表格和销售数据表格通过 merge 函数合并,形成我们需要的data。每个SKU在每个时刻采集的数据会出现波动,销量数据并不是一个连续增长的过程,因此为了求得当天的销量,可取一天中最大数和最小数差值。</p>
<p>生成销售额的方法类似,就不在这里列出。</p>
<p>生成PDF,这是当时的一个设想,后来参考这篇 教程 做出来了( Practical Business Python 是个好网站,推荐),原理是通过DataFrame转化为HTML,再将HTML转化为PDF。但是写邮件模块的时候,发现邮件可以内嵌HTML,因此就没有必要专门生成PDF,再通过邮件以附件的形式发送了。但在这里,还是先梳理下整个流程:</p>
<p>采用 Jinja2 生成PDF,首先需要生成一个模板,模板里面需设定好HTML的样式,这是参考教程写出的一个HTML的样式:</p>
<p>完成后,再将DataFrame通过 to_html 函数转化为HTML并填入到样式中。</p>
<p>最后生成PDF,只加入一个模块喝一句话就可以了。 weasyprint 这个模块是专门用于将HTML或者CSS转化为PDF:</p>
<p>python里面有专门的发送邮件模块, email 模块。邮件的模块包括两部分,一部分是邮件正文模块,一部分邮件发送模块:</p>
<p>邮件正文模块,通过MIMEText完成。在email模块里面有专门的( MIME , Multipurpose Internet Mail Extensions,多用途互联网邮件扩展)模块,用来生成对应的邮件正文类型。在这里先采用文本模块MIMEText做个示范:</p>
<p>然后就是发送邮件了,需要经过 stmplib 模块,下面详细讲讲。发送邮件首先需要设置 smtp (Simple Mail Transfer Protocol,简单邮件传输协议)的地址和端口,然后部分邮箱需要采用TTS加密协议的时候,则需要使用starttts()函数。然后对应的是登陆的用户名的密码,再将上面编写的msg发出去,最后quit即可。</p>
<p>总结下,之前设定的任务大体完成了。但是还是有很多可以深化的内容,例如前面采用DataFrame的时候,没有对数据进行可视化,HTML的模板还可以再美化下,另外假如引入了数据可视化,要怎么将可视化的图片嵌入到邮件中。邮件登陆那部分,部分邮箱没有办法采用这个方法发出(需要再考虑smtp设置)。</p>
<p>上面这些问题,后续会继续以小项目的形式进行研究。后面还可以进行平台之间的销售情况对比等等,总而言之,该项目还是有很大的扩张空间的。嘛,这一次就先这样结束吧。</p>
③ Python数据分析案例-药店销售数据分析
最近学习了Python数据分析的一些基础知识,就找了一个药品数据分析的小项目来练一下手。
数据分析的目的:
本篇文章中,假设以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。
数据分析基本过程包括:获取数据、数据清洗、构建模型、数据可视化以及消费趋势分析。
数据准备
数据是存在Excel中的,可以使用pandas的Excel文件读取函数将数据读取到内存中,这里需要注意的是文件名和Excel中的sheet页的名字。读取完数据后可以对数据进行预览和查看一些基本信息。
获取数据:朝阳医院2018年销售数据.xlsx(非真实数据) 提取码: 6xm2
导入原始数据
数据准备
数据是存在Excel中的,可以使用pandas的Excel文件读取函数将数据读取到内存中,这里需要注意的是文件名和Excel中的sheet页的名字。读取完数据后可以对数据进行预览和查看一些基本信息。
获取数据:朝阳医院2018年销售数据.xlsx(非真实数据) 提取码: 6xm2
导入原始数据
数据清洗
数据清洗过程包括:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理
(1)选择子集
在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分析,这时候就需要从整个数据中选取合适的子集进行分析,这样能从数据中获取最大价值。在本次案例中不需要选取子集,暂时可以忽略这一步。
(2)列重命名
在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现:
(3)缺失值处理
获取的数据中很有可能存在缺失值,通过查看基本信息可以推测“购药时间”和“社保卡号”这两列存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果。
缺失数据常用的处理方式为删除含有缺失数据的记录或者利用算法去补全缺失数据。
在本次案例中为求方便,直接使用dropna函数删除缺失数据,具体如下:
(4)数据类型转换
在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中“销售数量”,“应收金额”,“实收金额”,这些列需要浮点型(float)数据,“销售时间”需要改成时间格式,因此需要对数据类型进行转换。
可以使用astype()函数转为浮点型数据:
在“销售时间”这一列数据中存在星期这样的数据,但在数据分析过程中不需要用到,因此要把销售时间列中日期和星期使用split函数进行分割,分割后的时间,返回的是Series数据类型:
此时时间是没有按顺序排列的,所以还是需要排序一下,排序之后索引会被打乱,所以也需要重置一下索引。
其中by:表示按哪一列进行排序,ascending=True表示升序排列,ascending=False表示降序排列
先查看数据的描述统计信息
通过描述统计信息可以看到,“销售数量”、“应收金额”、“实收金额”这三列数据的最小值出现了负数,这明显不符合常理,数据中存在异常值的干扰,因此要对数据进一步处理,以排除异常值的影响:
数据清洗完成后,需要利用数据构建模型(就是计算相应的业务指标),并用可视化的方式呈现结果。
月均消费次数 = 总消费次数 / 月份数(同一天内,同一个人所有消费算作一次消费)
月均消费金额 = 总消费金额 / 月份数
客单价 = 总消费金额 / 总消费次数
从结果可以看出,每天消费总额差异较大,除了个别天出现比较大笔的消费,大部分人消费情况维持在1000-2000元以内。
接下来,我销售时间先聚合再按月分组进行分析:
结果显示,7月消费金额最少,这是因为7月份的数据不完整,所以不具参考价值。
1月、4月、5月和6月的月消费金额差异不大.
2月和3月的消费金额迅速降低,这可能是2月和3月处于春节期间,大部分人都回家过年的原因。
d. 分析药品销售情况
对“商品名称”和“销售数量”这两列数据进行聚合为Series形式,方便后面统计,并按降序排序:
截取销售数量最多的前十种药品,并用条形图展示结果:
结论:对于销售量排在前几位的药品,医院应该时刻关注,保证药品不会短缺而影响患者。得到销售数量最多的前十种药品的信息,这些信息也会有助于加强医院对药房的管理。
每天的消费金额分布情况:一横轴为时间,纵轴为实收金额画散点图。
结论: 从散点图可以看出,每天消费金额在500以下的占绝大多数,个别天存在消费金额很大的情况。
</article>