① 怎麼用python進行數據
pandas是本書後續內容的首選庫。pandas可以滿足以下需求:
具備按軸自動或顯式數據對齊功能的數據結構。這可以防止許多由於數據未對齊以及來自不同數據源(索引方式不同)的數據而導致的常見錯誤。.
集成時間序列功能
既能處理時間序列數據也能處理非時間序列數據的數據結構
數學運算和簡約(比如對某個軸求和)可以根據不同的元數據(軸編號)執行
靈活處理缺失數據
合並及其他出現在常見資料庫(例如基於SQL的)中的關系型運算
1、pandas數據結構介紹
兩個數據結構:Series和DataFrame。Series是一種類似於以為NumPy數組的對象,它由一組數據(各種NumPy數據類型)和與之相關的一組數據標簽(即索引)組成的。可以用index和values分別規定索引和值。如果不規定索引,會自動創建 0 到 N-1 索引。
相關系數與協方差
有些匯總
② 自學3年Python的我成了數據分析師,總結成一張思維導圖
大家好,我是一名普通畢業生,現就職於某互聯網公司。之前很多同學問我「 為什麼自學3年Python,最後卻成為了數據分析師 ?」
首先肯定是數據分析師的前景和薪資條件,打動了我
下面是我的學習之路,附帶一些必備學習的資料,可以 免費領取 ,相信感興趣的你看完也可以找到自己的方向。
眾所周知:Python是當今最火的編程語言之一,各大招聘網站上都會要求求職者會這門語言,並且它很容易上手,業務面寬泛,像Web網頁工程師、網路爬蟲工程師、自動化運維、自動化測試、 游戲 開發、數據分析、AI等等。
我們首先明確一個大的方向,知道自己以後要做什麼。因為我是統計學專業,所以我會選擇從事數據分析行業,那麼 用Python做數據分析成了一個最佳選擇 。
要想使用Python做數據分析,首先就應該知道「 數據分析的流程是怎樣的? 」
我這次特地總結了一張 思維導圖 給大家,點擊放大看更清楚哦。
(點擊查看高清大圖)
基於此,我這里將我以前學習過程中用過的電子書(技能類、統計類、業務類),還有相關視頻免費分享給大家,省去了你們挑選視頻的時間,也希望能夠對你們的學習有所幫助。
PS:我總結的資料有點多哦,差不多有4G,大家一定要給你的網路雲盤空出位置來哦!
如果遇到一些環境配置,還有一些錯誤異常等bug,資料就顯得不太夠用,這時就需要找到老師,給我們特別講解。
或者是想 快速學習 數據分析領域知識,不妨先找一找 直播課 看看, 了解當下最貼合實際的學習思路,確定自己的方向。
Day1 20:00&量化交易入門:
用Python做股票指標分析和買賣時機選擇
場景工具:Python工具分解RSI指標流程處理: 業務場景分析建模和可視化學習成果:使用RSI指標模型做買賣點搜索、交易回溯實戰案例:分析A股數據模型,制定投資策略
Day2 20:00&職場晉升必備:
製作酷炫報表,4步帶你學習數據可視化
場景工具:用Tableau學習如何管理數據流程處理: 利用業務拆解找到數據指標、進行數據可視化學習成果:高效的對數據驅動型業務作出精準決策實戰案例:利用可視化工具構建 旅遊 客流量趨勢地圖
Day3 20:00&量化交易進階:
0基礎用Python搭建量化分析平台
場景工具:利用pandas工具分解KDJ指標構成流程處理: 交易數據爬取,業務場景分析建模和可視化分析結果:用KDJ指標模型對比特幣行情買賣點搜索&交易回溯實戰項目:掌握根據數據指數和分析工具尋找虛擬貨幣買賣原理
他們 每周都會定期分享 一些 干貨 供大家學習參考,對學習很有幫助。
(深度學習DeepLearning.ai實驗室認證)
(微軟/甲骨文/Cloudera等公司頒發的數據分析證書)
4步學會數據可視化,辦公效率提高三倍
(更多精彩內容 等你解鎖)
③ python 正則表達式 我想找到字元串中成對匹配的數據 請指教
針對你所給的示例字元串,貌似無法一次性地提取出後面的那個abc的,只能提取出前面的ammmmmde:
可以這樣寫:
>>> re.findall(r'(?:\d+)([a-zA-Z]+)', 'sssa 123ammmmmde234abc aaaaa 123ammmmmde234abc llll')
['ammmmmde', 'abc', 'ammmmmde', 'abc']
原因在於:正則從左往右查找,沒有在找後面的abc時,也去找到之前的abc。
因為之前的abc,被在查找ammmmmde時,藏在中間了:
123ammmmmde234abc aaaaa 123ammmmmde
搜索過了,後面沒法再搜索。
一個折中的辦法是,用:
>>> re.findall(r'(?:\d+)([a-zA-Z]+)', 'sssa 123ammmmmde234abc aaaaa 123ammmmmde234abc llll')
['ammmmmde', 'abc', 'ammmmmde', 'abc']
找到上述的
['ammmmmde', 'abc', 'ammmmmde', 'abc']
然後你自己再另外提取,組合出來你要的:
[(ammmmmde, ammmmmde), (abc, abc)]
④ python提取excel表中的數據兩列
1、首先打開excel表格,在單元格中輸入兩列數據,需要將這兩列數據進行比對相同數據。
2、然後在C1單元格中輸入公式:=VLOOKUP(B1,A:A,1,0),意思是比對B1單元格中A列中是否有相同數據。
3、點擊回車,即可將公式的計算結果顯示出來,可以看到C1中顯示的是B1在A列中找到的相同數據。
4、將公式向下填充,即可發現C列中顯示出的數字即為有相同數據的,顯示「#N/A」的為沒有找到匹配數據的。
5、將C1-C4中的數據進行復制並粘貼成數值,即可完成相同數據的提取操作。
在實際研究中,我們經常需要獲取大量數據,而這些數據很大一部分以pdf表格的形式呈現,如公司年報、發行上市公告等。面對如此多的數據表格,採用手工復制黏貼的方式顯然並不可取。那麼如何才能高效提取出pdf文件中的表格數據呢?
Python提供了許多可用於pdf表格識別的庫,如camelot、tabula、pdfplumber等。綜合來看,pdfplumber庫的性能較佳,能提取出完整、且相對規范的表格。因此,本推文也主要介紹pdfplumber庫在pdf表格提取中的作用。
作為一個強大的pdf文件解析工具,pdfplumber庫可迅速將pdf文檔轉換為易於處理的txt文檔,並輸出pdf文檔的字元、頁面、頁碼等信息,還可進行頁面可視化操作。使用pdfplumber庫前需先安裝,即在cmd命令行中輸入:
pip install pdfplumber
pdfplumber庫提供了兩種pdf表格提取函數,分別為.extract_tables( )及.extract_table( ),兩種函數提取結果存在差異。為進行演示,我們網站上下載了一份短期融資券主體信用評級報告,為pdf格式。任意選取某一表格,其界面如下:
接下來,我們簡要分析兩種提取模式下的結果差異。
(1).extract_tables( )
可輸出頁面中所有表格,並返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。例如,我們執行如下程序:
輸出結果:
(2).extract_table( )
返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。若需輸出某個元素,得到的便是具體的數值或字元串。如下:
輸出結果:
在此基礎上,我們詳細介紹如何從pdf文件中提取表格數據。其中一種思路便是將提取出的列表視為一個字元串,結合Python的正則表達式re模塊進行字元串處理後,將其保存為以標准英文逗號分隔、可被Excel識別的csv格式文件,即進行如下操作:
輸出結果:
盡管能獲得完整的表格數據,但這種方法相對不易理解,且在處理結構不規則的表格時容易出錯。由於通過pdfplumber庫提取出的表格數據為整齊的列表結構,且含有數字、字元串等數據類型。因此,我們可調用pandas庫下的DataFrame( )函數,將列表轉換為可直接輸出至Excel的DataFrame數據結構。DataFrame的基本構造函數如下:
DataFrame([data,index, columns])
三個參數data、index和columns分別代表創建對象、行索引和列索引。DataFrame類型可由二維ndarray對象、列表、字典、元組等創建。本推文中的data即指整個pdf表格,提取程序如下:
其中,table[1:]表示選定整個表格進行DataFrame對象創建,columns=table[0]表示將表格第一行元素作為列變數名,且不創建行索引。輸出Excel表格如下:
通過以上簡單程序,我們便提取出了完整的pdf表格。但需注意的是,面對不規則的表格數據提取,創建DataFrame對象的方法依然可能出錯,在實際操作中還需進行核對。
關於我們
微信公眾號「爬蟲俱樂部」分享實用的stata命令,歡迎轉載、打賞。爬蟲俱樂部是由李春濤教授領導下的研究生及本科生組成的大數據分析和數據挖掘團隊。
投稿要求:
1)必須原創,禁止抄襲;
2)必須准確,詳細,有例子,有截圖;