㈠ Python數據分析——Pandas數據結構Dataframe:基本概念及創建
Dataframe,作為Python數據分析中的關鍵工具,是一種表格型的數據結構,它以有序的列形式存儲數據,每列的值可以是數值、字元串或者布爾值等不同類型的數據。這種數據結構並不是基於列表、字典或一維數組的傳統構造,而是以二維塊的方式組織信息。
在Dataframe中,每行都有一個獨特的標識,稱為行標簽(index),而列則是列標簽(columns),使得數據的索引更加直觀和方便。創建Dataframe的方法多樣,可以使用列表或數組組成的字典,其中字典的鍵作為列標簽,而值的長度需一致。例如,嘗試創建時,如果字典中值的長度不一致,會引發錯誤。
在創建過程中,列的順序可以通過columns參數進行指定,可以是自定義的列表,如果列名在原始數據中不存在,將會產生NaN值。此外,如果新指定的列數量少於原始數據,Dataframe會相應地調整其大小。
另一個創建方式是通過Series組成的字典,如果直接用二維數組,不指定index和columns,它們將默認生成數字索引。同樣,這時的index長度需與數組行數匹配。
最後,使用字典組成的列表進行創建時,這種數據結構的構建方式可以生成與輸入數據形狀相同的Dataframe。整體來說,Dataframe的靈活創建方式使其在數據分析中扮演了至關重要的角色。