Ⅰ 共享單車數據可視化分析(python/Seaborn)
項目數據來源於kaggle項目 Bike Share Demand ,使用Python對數據進行了可視化分析:
1. 提出問題
影響共享單車租用數量的因素有哪些?影響程度如何?
2. 理解數據
變數說明:
3.數據清洗
1)數據預處理:數據完整無缺失值
2)特徵工程:從datetime中提取年、月、日、時、星期等時間信息
4. 可視化分析
1)單車使用量在天氣維度上的分析(天氣、溫度、濕度和風速相關性)
可以看到,整體租車量受天氣影響較為明顯,極端的天氣租車數量減少。
4級天氣看起來有些異常,於是統計數據條目:
可以看到,4級天氣只有1條數據記錄,這種極端天氣情況出現的數據極少。
溫度和使用量有正相關關系,濕度與使用量有負相關關系,風速和使用量幾乎不相關。
由圖像可看出,使用量與溫度、濕度和風速的關系,相關性有限。
2)單車使用量在時間維度上的分析(月份、季節、時間、星期等相關性)
總量來看,節假日和周末/工作日的租車數量基本相同。
圖1可以看出2012年共享單車的使用量高於2011年,消費人群增加了1.5~2倍。兩年內租車量隨月份變化的趨勢相同,6、7、8月有明顯的高需求。
圖2可以看計程車時間高峰為上午7-8點,下午5-6點,符合上下班通勤的時間范圍。季節上看,春天的租車輛明顯少於其它三個季節。
圖3可以看出工作日租車輛主要為上下班時間,周末租車輛主要集中在10am-4pm之間。
3)單車使用量與注冊用戶/非注冊用戶的相關性
注冊人數使用量明顯高於非注冊人數,
非會員casual主要是周末出行,為了遊玩; 會員registered主要是為了周一到周五上班。
5. 總結
Ⅱ python 文件內容操作,如一個文件100萬條數據,查詢相同行數
使用open函數逐行讀取文件,依次對比,如包含要求字元串,則數量累加1,讀取完成後可統計出行數,代碼如下:
n=0
forlineinopen('filename','r'):
if'固定字元串'inline:
n+=1
print(n)
說明:
使用 for line in open這種方式可以提高代碼效率,如需要更復雜統計,例如重復行,則可以使用hash函數,把行hash值存入列表,再做統計。
Ⅲ nodejs 還是python
1.兩者均能結束服務端的需求,不分伯仲。就像我們買車相同,買車的意圖是為了出行,python和nodejs就像是路虎和群眾,兩者都是轎車,究竟誰的方位高?首要仍是看車主你的喜歡
了。相同,喜歡用python的人就會以為python方位高,擅長nodejs的人就會以為nodejs的方位高。但實際情況上時,截止現在兩者均在服務端發揮著重要作用,並沒有出現一個像轎車一個像自行車這
樣的明顯可比狀況。
2.Node.js比較Python有以下利益。
快,nodejs比python快在了V8引擎和非同步實行。Node.js根據V8引擎和非同步網路和IOLibrary,和Python的Twisted很像,不同的是Node.js的eventloop是在很底層的,我們都知道越接近
底層功率越高。
其他npm作為Node.js的官方packagemanagement,匯集了整個社區最會集的資源;而Python卻是easy_install和pip,還有python2和python3代碼不通用的問題;
Windows支撐:Node.js有微軟的支撐,在Windows上較安穩。libuv現已可以很好的兼容跨途徑,Python盡管也對Windows有官方的支撐,但總時不時出些問題,例如在win10上的一些裝置
包問題。