Ⅰ python數據分析筆記#8.2.2 索引上的合並
「目錄」
數據規整:聚合、合並和重塑
Data Wrangling: Join, Combine, and Reshape
--------> 資料庫風格的DataFrame合並
--------> 索引上的合並
上一篇筆記講的是如何根據DataFrame的列名來鏈接兩個DataFrame對象。
有時候我們要根據DataFrame中的index索引來合並數據。這種情況下,我們可以傳入 left_index=True或right_index=True 或兩個都傳入來說明索引被用作鏈接鍵。
我們先創建兩個DataFrame,指明根據第一個DataFrame的'key'列和第二個DataFrame的index索引來合並數據:
默認的merge方法是求取鏈接鍵的交集,通過傳入how='outer'可以得到它們的並集:
層次化索引數據的合並
對於層次化索引的數據的合並,我們要以 列表的形式指明用作合並鍵的多個列 。
比如下面我們就指定根據第一個DataFrame的'key1'列和'key2'列以及第二個DataFrame的index索引來合並:
同時使用雙方的索引來合並也沒問題:
join方法
DataFrame還有便捷的實例方法join,它能更方便的實現按索引合並,但要求沒有重疊的列。
我們還可以向join傳入一組DataFrame,類似於concat函數,實現多個DataFrame的合並拼接:
-END-
Ⅱ python數據分析的一般步驟是什麼
下面是用python進行數據分析的一般步驟:
一:數據抽取
從外部源數據中獲取數據
保存為各種格式的文件、資料庫等
使用Scrapy爬蟲等技術
二:數據載入
從資料庫、文件中提取數據,變成DataFrame對象
pandas庫的文件讀取方法
三:數據處理
數據准備:
對DataFrame對象(多個)進行組裝、合並等操作
pandas庫的操作
數據轉化:
類型轉化、分類(面元等)、異常值檢測、過濾等
pandas庫的操作
數據聚合:
分組(分類)、函數處理、合並成新的對象
pandas庫的操作
四:數據可視化
將pandas的數據結構轉化為圖表的形式
matplotlib庫
五:預測模型的創建和評估
數據挖掘的各種演算法:
關聯規則挖掘、回歸分析、聚類、分類、時序挖掘、序列模式挖掘等
六:部署(得出結果)
從模型和評估中獲得知識
知識的表示形式:規則、決策樹、知識基、網路權值
更多技術請關注python視頻教程。