Ⅰ 共享单车数据可视化分析(python/Seaborn)
项目数据来源于kaggle项目 Bike Share Demand ,使用Python对数据进行了可视化分析:
1. 提出问题
影响共享单车租用数量的因素有哪些?影响程度如何?
2. 理解数据
变量说明:
3.数据清洗
1)数据预处理:数据完整无缺失值
2)特征工程:从datetime中提取年、月、日、时、星期等时间信息
4. 可视化分析
1)单车使用量在天气维度上的分析(天气、温度、湿度和风速相关性)
可以看到,整体租车量受天气影响较为明显,极端的天气租车数量减少。
4级天气看起来有些异常,于是统计数据条目:
可以看到,4级天气只有1条数据记录,这种极端天气情况出现的数据极少。
温度和使用量有正相关关系,湿度与使用量有负相关关系,风速和使用量几乎不相关。
由图像可看出,使用量与温度、湿度和风速的关系,相关性有限。
2)单车使用量在时间维度上的分析(月份、季节、时间、星期等相关性)
总量来看,节假日和周末/工作日的租车数量基本相同。
图1可以看出2012年共享单车的使用量高于2011年,消费人群增加了1.5~2倍。两年内租车量随月份变化的趋势相同,6、7、8月有明显的高需求。
图2可以看出租车时间高峰为上午7-8点,下午5-6点,符合上下班通勤的时间范围。季节上看,春天的租车辆明显少于其它三个季节。
图3可以看出工作日租车辆主要为上下班时间,周末租车辆主要集中在10am-4pm之间。
3)单车使用量与注册用户/非注册用户的相关性
注册人数使用量明显高于非注册人数,
非会员casual主要是周末出行,为了游玩; 会员registered主要是为了周一到周五上班。
5. 总结
Ⅱ python 文件内容操作,如一个文件100万条数据,查询相同行数
使用open函数逐行读取文件,依次对比,如包含要求字符串,则数量累加1,读取完成后可统计出行数,代码如下:
n=0
forlineinopen('filename','r'):
if'固定字符串'inline:
n+=1
print(n)
说明:
使用 for line in open这种方式可以提高代码效率,如需要更复杂统计,例如重复行,则可以使用hash函数,把行hash值存入列表,再做统计。
Ⅲ nodejs 还是python
1.两者均能结束服务端的需求,不分伯仲。就像我们买车相同,买车的意图是为了出行,python和nodejs就像是路虎和群众,两者都是轿车,究竟谁的方位高?首要仍是看车主你的喜欢
了。相同,喜欢用python的人就会以为python方位高,擅长nodejs的人就会以为nodejs的方位高。但实际情况上时,截止现在两者均在服务端发挥着重要作用,并没有出现一个像轿车一个像自行车这
样的明显可比状况。
2.Node.js比较Python有以下利益。
快,nodejs比python快在了V8引擎和异步实行。Node.js根据V8引擎和异步网络和IOLibrary,和Python的Twisted很像,不同的是Node.js的eventloop是在很底层的,我们都知道越接近
底层功率越高。
其他npm作为Node.js的官方packagemanagement,汇集了整个社区最会集的资源;而Python却是easy_install和pip,还有python2和python3代码不通用的问题;
Windows支撑:Node.js有微软的支撑,在Windows上较安稳。libuv现已可以很好的兼容跨途径,Python尽管也对Windows有官方的支撑,但总时不时出些问题,例如在win10上的一些装置
包问题。