Ⅰ python該怎麼入門
作為初學者,第一個月的月目標應該是這樣的:
熟悉基本概念(變數,條件,列表,循環,函數)
練習超過 30 個編程問題
利用這些概念完成兩個項目
熟悉至少 2 個框架
開始使用集成開發環境(IDE),Github,hosting,services 等
整體計劃
現在,我們先將月計劃細化成周計劃。
第一周:熟悉 Python
要積極探索 Python 的使用方法,盡可能多的完成下面這些任務:
第一天:基本概念(4 小時):print,變數,輸入,條件語句
第二天:基本概念(5 小時):列表,for 循環,while 循環,函數,導入模塊
第三天:簡單編程問題(5 小時):交換兩個變數值,將攝氏度轉換為華氏溫度,求數字中各位數之和,判斷某數是否為素數,生成隨機數,刪除列表中的重復項等等
第四天:中級編程問題(6 小時):反轉一個字元串(迴文檢測),計算最大公約數,合並兩個有序數組,猜數字游戲,計算年齡等等
第五天:數據結構(6 小時):棧,隊列,字典,元組,樹,鏈表。
第六天:面向對象編程(OOP)(6 小時):對象,類,方法和構造函數,面向對象編程之繼承
第七天:演算法(6 小時):搜索(線性和二分查找)、排序(冒泡排序、選擇排序)、遞歸函數(階乘、斐波那契數列)、時間復雜度(線性、二次和常量)
通過第一周時間,python大致能熟悉了,自學能力稍微弱一點找人帶下你,節約自己的時間。
注意:別急著安裝 Python 環境!
這看起來很矛盾,但是你一定要相信我。我有幾個朋友,他們因為語言工具包和 IDE 安裝的失敗而逐漸失去了學習下去的慾望。因此,我的建議是先使用一些安卓 app 來探索這門語言,如果你是個技術小白,安裝 Python 環境可不是你的首要任務。
第二周:開始軟體開發(構建項目)
接下來,讓我們朝著軟體開發任務進軍吧!不妨嘗試綜合你學到的知識完成一個實際的項目:
第一天:熟悉一種 IDE(5 小時): IDE 是你在編寫大型項目時的操作環境,所以你需要精通一個 IDE。在軟體開發的初期,我建議你在 VS code 中安裝 Python 擴展或使用 Jupyter notebook。
第二天:Github(6 小時):探索 Github,並創建一個代碼倉庫。嘗試提交(Commit)、查看變更(Diff)和上推(Push)你的代碼。另外,還要學習如何利用分支工作,如何合並(merge)不同分支以及如何在一個項目中創建拉取請求(pull request)。
第三天:第一個項目——簡單計算器(4 小時):熟悉 Tkinter,創建一個簡單的計算器
第四、五、六天:個人項目(每天 5 小時):選定一個項目並完成它。如果你不知道你該做什麼,可以查看下面的清單(https://www.quora.com/what-some-good pythonprojects -for-an- middle - programmer/answer/jhankar - mahbub2)
第七天:託管項目(5 小時):學習使用伺服器和 hosting 服務來託管你的項目。創建一個 Heroku 設置並部署你構建的應用程序。
為什麼要寫項目?
如果僅僅按部就班地學習課堂上或視頻中的內容,你無法擁有獨立思考能力。所以,你必須把你的知識應用到一個項目中。當你努力尋找答案時,你也在慢慢地學會這些知識。
第三周:讓自己成為一名程序員
第 3 周的目標是熟悉軟體開發的整體過程。你不需要掌握所有的知識,但是你應該知道一些常識,因為它們會影響你的日常工作。
第一天:資料庫基礎(6 小時):基本 SQL 查詢(創建表、選擇、Where 查詢、更新)、SQL 函數(Avg、Max、Count)、關系資料庫(規范化)、內連接、外連接等
第二天:使用 Python 資料庫(5 小時):利用一種資料庫框架(SQLite 或 panda),連接到一個資料庫,在多個表中創建並插入數據,再從表中讀取數據。
第三天:API(5 小時):如何調用 API。學習 JSON、微服務(micro-service)以及表現層應用程序轉換應用程序介面(Rest API)。
第四天:Numpy(4 小時):熟悉 Numpy(https://towardsdatascience.com/lets-talk-about- Numpy -for- datascies-beginners-b8088722309f)並練習前 30 個 Numpy 習題(https://github.com/rougier/numpy- 100/blob/master/100_numpy_excercises.md)
第五、六天:作品集網站(一天 5 小時):學習 Django,使用 Django 構建一個作品集網站(https://realpython.com/get- start-with-django -1/),也要了解一下 Flask 框架。
第七天:單元測試、日誌、調試(5 小時):學習單元測試(PyTest),如何設置和查看日誌,以及使用斷點調試。
真心話時間(絕密)
如果你非常「瘋狂」,並且非常專注,你可以在一個月內完成這些任務。你必須做到:
把學習 Python 作為你的全職活動。你需要從早上 8 點開始學習,一直到下午 5 點。在此期間,你可以有一個午休時間和茶歇時間(共 1 小時)。
8 點列出你今天要學的東西,然後花一個小時復習和練習你昨天學過的東西。
從 9 點到 12 點:開始學習,並進行少量練習。在午飯後,你需要加大練習量,如果你卡在某個問題上,可以在網上搜索解決方案。
嚴格保持每天 4-5 小時的學習時間和 2-3 小時的練習時間(每周最多可以休息一天)。
你的朋友可能會認為你瘋了。走自己的路,讓別人去說吧!
如果你有一份全職工作,或者你是一名學生,完成這些流程可能需要更長的時間。作為一名全日制學生,我花了 8 個月的時間來完成這份清單。現在我是一名高級開發人員。所以,不管花多長時間,一定要完成它們。要想成功完成一個目標,必須付出百分之百的努力。
第四周:認真考慮工作(實習)問題
第 4 周的目標是認真思考如何才能被錄用。即使你現在不想找工作,你也可以在探索這條道路的過程中學到很多東西。
第一天:准備簡歷(5 小時):製作一份一頁的簡歷。把你的技能總結放在最上面,必須在寫項目的同時附上 Github 鏈接。
第二天:作品集網站(6 小時):寫幾個博客,將它們添加到你之前開發的作品集網站中。
第三天:LinkedIn 簡介(4 小時):創建一個 LinkedIn 個人簡介,把簡歷上的所有內容都放到 LinkedIn 上。
第四天:面試准備(7 小時):准備一些谷歌常見的面試問題,練習白皮書中的 10 個面試編程問題。在 Glassdoor、Careercup 等網站中查看前人遇到的面試問題。
第五天:社交(~小時):走出房門,開始參加聚會、招聘會,與其他開發人員和招聘人員見面。
第六天:工作申請(~小時):搜索「Python Job」,查看 LinkedIn Job 和本地求職網站。選擇 3 個工作崗位並發送工作申請。為每個工作定製你的簡歷。在每個工作要求中找出 2 到 3 件你不知道的事情,並在接下來的 3-4 天里學會它們。
第七天:在拒絕中學習(~小時):每次你被拒絕的時候,找出兩件為了獲得這份工作你應該知道的事情,然後花 4-5 天 的時間來掌握它們。這樣,每次拒絕都會讓你成為更好的開發人員。
Ⅱ 數據分析員用python做數據分析是怎麼回事,需要用到python中的那些內容,具體是怎麼操作的
大數據!大數據!其實是離不開數據二字,但是總體來講,自己之前對數據的認知是不太夠的,更多是在關注技術的提升上。換句話講,自己是在做技術,這些技術處理的是數據,而不能算是自己是在做數據的。大規模數據的處理是一個非常大的課題,但是這一點更偏向於是搞技術的。
與數據分析相關的Python庫很多,比如Numpy、pandas、matplotlib、scipy等,數據分析的操作包括數據的導入和導出、數據篩選、數據描述、數據處理、統計分析、可視化等等。接下來我們看一下如何利用Python完成數據的分析。
生成數據表
常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據,Python支持從多種類型的數據導入。在開始使用Python進行數據導入前需要先導入pandas庫,為了方便起見,我們也同時導入Numpy庫。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱、索引列、數據格式等等。
檢查數據表
Python中使用shape函數來查看數據表的維度,也就是行數和列數。你可以使用info函數查看數據表的整體信息,使用dtypes函數來返回數據格式。Isnull是Python中檢驗空值的函數,你可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查,返回的結果是邏輯值,包含空值返回True,不包含則返回False。使用unique函數查看唯一值,使用Values函數用來查看數據表中的數值。
數據表清洗
Python中處理空值的方法比較靈活,可以使用Dropna函數用來刪除數據表中包含空值的數據,也可以使用fillna函數對空值進行填充。Python中dtype是查看數據格式的函數,與之對應的是astype函數,用來更改數據格式,Rename是更改列名稱的函數,drop_plicates函數刪除重復值,replace函數實現數據替換。
數據預處理
數據預處理是對清洗完的數據進行整理以便後期的統計和分析工作,主要包括數據表的合並、排序、數值分列、數據分組及標記等工作。在Python中可以使用merge函數對兩個數據表進行合並,合並的方式為inner,此外還有left、right和outer方式。使用ort_values函數和sort_index函數完成排序,使用where函數完成數據分組,使用split函數實現分列。
數據提取
主要是使用三個函數:loc、iloc和ix,其中loc函數按標簽值進行提取,iloc按位置進行提取,ix可以同時按標簽和位置進行提取。除了按標簽和位置提起數據以外,還可以按具體的條件進行數據,比如使用loc和isin兩個函數配合使用,按指定條件對數據進行提取。
數據篩選匯總
Python中使用loc函數配合篩選條件來完成篩選功能,配合sum和 count函數還能實現excel中sumif和countif函數的功能。Python中使用的主要函數是groupby和pivot_table。groupby是進行分類匯總的函數,使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby 按列名稱出現的順序進行分組。
Ⅲ 如何使用Python為Hadoop編寫一個簡單的MapRece程序
在這個實例中,我將會向大家介紹如何使用Python 為 Hadoop編寫一個簡單的MapRece
程序。
盡管Hadoop 框架是使用Java編寫的但是我們仍然需要使用像C++、Python等語言來實現Hadoop程序。盡管Hadoop官方網站給的示常式序是使用Jython編寫並打包成Jar文件,這樣顯然造成了不便,其實,不一定非要這樣來實現,我們可以使用Python與Hadoop 關聯進行編程,看看位於/src/examples/python/WordCount.py 的例子,你將了解到我在說什麼。
我們想要做什麼?
我們將編寫一個簡單的 MapRece 程序,使用的是C-Python,而不是Jython編寫後打包成jar包的程序。
我們的這個例子將模仿 WordCount 並使用Python來實現,例子通過讀取文本文件來統計出單詞的出現次數。結果也以文本形式輸出,每一行包含一個單詞和單詞出現的次數,兩者中間使用製表符來想間隔。
先決條件
編寫這個程序之前,你學要架設好Hadoop 集群,這樣才能不會在後期工作抓瞎。如果你沒有架設好,那麼在後面有個簡明教程來教你在Ubuntu linux 上搭建(同樣適用於其他發行版linux、unix)
如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立單節點的 Hadoop 集群
如何使用Hadoop Distributed File System (HDFS)在Ubuntu Linux 建立多節點的 Hadoop 集群
Python的MapRece代碼
使用Python編寫MapRece代碼的技巧就在於我們使用了 HadoopStreaming 來幫助我們在Map 和 Rece間傳遞數據通過STDIN (標准輸入)和STDOUT (標准輸出).我們僅僅使用Python的sys.stdin來輸入數據,使用sys.stdout輸出數據,這樣做是因為HadoopStreaming會幫我們辦好其他事。這是真的,別不相信!
Map: mapper.py
將下列的代碼保存在/home/hadoop/mapper.py中,他將從STDIN讀取數據並將單詞成行分隔開,生成一個列表映射單詞與發生次數的關系:
注意:要確保這個腳本有足夠許可權(chmod +x /home/hadoop/mapper.py)。
#!/usr/bin/env python
import sys
# input comes from STDIN (standard input)
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()
# split the line into words
words = line.split()
# increase counters
for word in words:
# write the results to STDOUT (standard output);
# what we output here will be the input for the
# Rece step, i.e. the input for recer.py
#
# tab-delimited; the trivial word count is 1
print '%s\\t%s' % (word, 1)在這個腳本中,並不計算出單詞出現的總數,它將輸出 "<word> 1" 迅速地,盡管<word>可能會在輸入中出現多次,計算是留給後來的Rece步驟(或叫做程序)來實現。當然你可以改變下編碼風格,完全尊重你的習慣。
Rece: recer.py
將代碼存儲在/home/hadoop/recer.py 中,這個腳本的作用是從mapper.py 的STDIN中讀取結果,然後計算每個單詞出現次數的總和,並輸出結果到STDOUT。
同樣,要注意腳本許可權:chmod +x /home/hadoop/recer.py
#!/usr/bin/env python
from operator import itemgetter
import sys
# maps words to their counts
word2count = {}
# input comes from STDIN
for line in sys.stdin:
# remove leading and trailing whitespace
line = line.strip()
# parse the input we got from mapper.py
word, count = line.split('\\t', 1)
# convert count (currently a string) to int
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
except ValueError:
# count was not a number, so silently
# ignore/discard this line
pass
# sort the words lexigraphically;
#
# this step is NOT required, we just do it so that our
# final output will look more like the official Hadoop
# word count examples
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))
# write the results to STDOUT (standard output)
for word, count in sorted_word2count:
print '%s\\t%s'% (word, count)
測試你的代碼(cat data | map | sort | rece)
我建議你在運行MapRece job測試前嘗試手工測試你的mapper.py 和 recer.py腳本,以免得不到任何返回結果
這里有一些建議,關於如何測試你的Map和Rece的功能:
——————————————————————————————————————————————
\r\n
# very basic test
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py
foo 1
foo 1
quux 1
labs 1
foo 1
bar 1
——————————————————————————————————————————————
hadoop@ubuntu:~$ echo "foo foo quux labs foo bar quux" | /home/hadoop/mapper.py | sort | /home/hadoop/recer.py
bar 1
foo 3
labs 1
——————————————————————————————————————————————
# using one of the ebooks as example input
# (see below on where to get the ebooks)
hadoop@ubuntu:~$ cat /tmp/gutenberg/20417-8.txt | /home/hadoop/mapper.py
The 1
Project 1
Gutenberg 1
EBook 1
of 1
[...]
(you get the idea)
quux 2
quux 1
——————————————————————————————————————————————
在Hadoop平台上運行Python腳本
為了這個例子,我們將需要三種電子書:
The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson\r\n
The Notebooks of Leonardo Da Vinci\r\n
Ulysses by James Joyce
下載他們,並使用us-ascii編碼存儲 解壓後的文件,保存在臨時目錄,比如/tmp/gutenberg.
hadoop@ubuntu:~$ ls -l /tmp/gutenberg/
total 3592
-rw-r--r-- 1 hadoop hadoop 674425 2007-01-22 12:56 20417-8.txt
-rw-r--r-- 1 hadoop hadoop 1423808 2006-08-03 16:36 7ldvc10.txt
-rw-r--r-- 1 hadoop hadoop 1561677 2004-11-26 09:48 ulyss12.txt
hadoop@ubuntu:~$
復制本地數據到HDFS
在我們運行MapRece job 前,我們需要將本地的文件復制到HDFS中:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -FromLocal /tmp/gutenberg gutenberg
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
Found 1 items
/user/hadoop/gutenberg <dir>
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg
Found 3 items
/user/hadoop/gutenberg/20417-8.txt <r 1> 674425
/user/hadoop/gutenberg/7ldvc10.txt <r 1> 1423808
/user/hadoop/gutenberg/ulyss12.txt <r 1> 1561677
執行 MapRece job
現在,一切准備就緒,我們將在運行Python MapRece job 在Hadoop集群上。像我上面所說的,我們使用的是
HadoopStreaming 幫助我們傳遞數據在Map和Rece間並通過STDIN和STDOUT,進行標准化輸入輸出。
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output
在運行中,如果你想更改Hadoop的一些設置,如增加Rece任務的數量,你可以使用「-jobconf」選項:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-jobconf mapred.rece.tasks=16 -mapper ...
一個重要的備忘是關於Hadoop does not honor mapred.map.tasks
這個任務將會讀取HDFS目錄下的gutenberg並處理他們,將結果存儲在獨立的結果文件中,並存儲在HDFS目錄下的
gutenberg-output目錄。
之前執行的結果如下:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.19.1-streaming.jar
-mapper /home/hadoop/mapper.py -recer /home/hadoop/recer.py -input gutenberg/*
-output gutenberg-output
additionalConfSpec_:null
null=@@@userJobConfProps_.get(stream.shipped.hadoopstreaming
packageJobJar: [/usr/local/hadoop-datastore/hadoop-hadoop/hadoop-unjar54543/]
[] /tmp/streamjob54544.jar tmpDir=null
[...] INFO mapred.FileInputFormat: Total input paths to process : 7
[...] INFO streaming.StreamJob: getLocalDirs(): [/usr/local/hadoop-datastore/hadoop-hadoop/mapred/local]
[...] INFO streaming.StreamJob: Running job: job_200803031615_0021
[...]
[...] INFO streaming.StreamJob: map 0% rece 0%
[...] INFO streaming.StreamJob: map 43% rece 0%
[...] INFO streaming.StreamJob: map 86% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 0%
[...] INFO streaming.StreamJob: map 100% rece 33%
[...] INFO streaming.StreamJob: map 100% rece 70%
[...] INFO streaming.StreamJob: map 100% rece 77%
[...] INFO streaming.StreamJob: map 100% rece 100%
[...] INFO streaming.StreamJob: Job complete: job_200803031615_0021
[...] INFO streaming.StreamJob: Output: gutenberg-output hadoop@ubuntu:/usr/local/hadoop$
正如你所見到的上面的輸出結果,Hadoop 同時還提供了一個基本的WEB介面顯示統計結果和信息。
當Hadoop集群在執行時,你可以使用瀏覽器訪問 http://localhost:50030/ ,如圖:
檢查結果是否輸出並存儲在HDFS目錄下的gutenberg-output中:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg-output
Found 1 items
/user/hadoop/gutenberg-output/part-00000 <r 1> 903193 2007-09-21 13:00
hadoop@ubuntu:/usr/local/hadoop$
可以使用dfs -cat 命令檢查文件目錄
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg-output/part-00000
"(Lo)cra" 1
"1490 1
"1498," 1
"35" 1
"40," 1
"A 2
"AS-IS". 2
"A_ 1
"Absoluti 1
[...]
hadoop@ubuntu:/usr/local/hadoop$
注意比輸出,上面結果的(")符號不是Hadoop插入的。
轉載僅供參考,版權屬於原作者。祝你愉快,滿意請採納哦
Ⅳ Python其實很簡單 第二十一章 DataFrame數據處理
將Excel中的的數據讀入數據框架DataFrame後,可以非常方便的進行各種數據處理。
21.1 列間求和
求總分(總分=語文+數學+英語)
對於上一章所提到的學生成績表,僅用一個語句即可完成總分計算,並填充。
df['總分']=df['語文']+df['數學']+df['英語']
完整代碼如下:
from pandas import read_excel
file='d:/student.xlsx' #見第18章表18-1
df=read_excel(file,sheet_name=0,converters={'學號':str})
df['總分']=df['語文']+df['數學']+df['英語']
print(df.head()) #df.head()的作用是僅顯示5行記錄。
運行結果如下:
序號 學號 姓名 年級 班級 語文 數學 英語 總分 名次
0 1 070101 王博宇 NaN NaN 84 71 93 248 NaN
1 2 070102 陳冠濤 NaN NaN 89 89 89 267 NaN
2 3 070103 李文博 NaN NaN 89 72 76 237 NaN
3 4 070204 姜海燕 NaN NaN 89 89 89 267 NaN
4 5 070205 林若溪 NaN NaN 91 95 83 269 NaN
21.2替換
既可以將對滿足條件的行和列的數據替換,也可以對整個集合的數據按照條件進行替換。
df['總分'].replace(310,'x',inplace=True)
將總分列的數值「310」替換為「x」。inplace=True表示改變原數據。
df.replace(76,0,inplace=True)
將整個DataFrame中的數值「76」替換為「0」。
df.replace([98,76,99],0,inplace=True)
將整個DataFrame中的數值「98,76,99」一次替換為「0」。
21.2排序
既可以將某一列作為關鍵欄位排序,也可以將幾個列分別作為主、次關鍵欄位進行排序。排序既可以按升序排序,也可以按降序排序。
函數sort_values()的語法格式如下:
df.sort_values(by=[「col1」,」col2」,......,」coln」],ascending=False)
其中,coln表示列名,也可以是列名的列表;ascending表示排序方式,值為True表示升序,可以省缺,值為False表示降序。
如:
df=df.sort_values(by=['總分'],ascending=False)
表示按照「總分」從高到低排序。
df=df.sort_values(by=['總分','語文'],ascending=False)
表示按照「總分」從高到低排序,若「總分」相同,再按照「語文」成績從高到低排序。
21.3 欄位截取
函數slice()可以從某列中截取字元串。格式如下:
slice(start,stop)
其中,start表示開始位置;stop表示結束位置
例:
df['年級']=df['學號'].str.slice(0,2)
通過此語句可以截取學號欄位的第1、2個字元,並賦值給年級欄位。
21.4 記錄抽取
可以抽取滿足條件的記錄。
例:抽取總分>300的記錄。
df[df.總分>300]
抽取總分在300到310之間(包括300和310)的記錄。
df[df.總分.between(306,310)]
抽取學號中包含「0803」的記錄。這樣可以非常方便的抽取某個班的信息。
df[df.學號.str.contains(',na=False)]
此處的na=False,含義是如遇到NaN這樣的數據,直接做不匹配處理。
21.5修改記錄
1、整列替換
我們在前面已經給整列填充過數據,填充時原來的數據就被覆蓋了。
即如下語句:
df['總分']=df['語文']+df['數學']+df['英語']
2、個別修改
如將值『99』替換為值『100』,可用如下語句:
df.replace(ྟ',颼')
將指定列的值替,如將語文列和英語列的值『99』替換為值『100』,可用如下語句:
df.replace({'語文':99,'英語':99},100)
可用如下程序去驗證:
from pandas import read_excel
file='d:/student.xlsx'
df=read_excel(file,sheet_name=0,converters={'學號':str})
print(df[(df.語文==99) |(df.英語==99)])
df=df.replace({'語文':99,'英語':99},100)
print(df[(df.語文==99) |(df.英語==99)])
運行結果為:
序號 學號 姓名 年級 班級 語文 數學 英語 總分 名次
28 29 090802 丁能通 09 NaN 119 120 99 338 NaN
29 30 090203 沈丹妮 09 NaN 109 108 99 316 NaN
Empty DataFrame
Columns: [序號, 學號, 姓名, 年級, 班級, 語文, 數學, 英語, 總分, 名次]
Index: []
可以看出,第一個print()語句輸出的結果中滿足條件「語文或英語為99分」的有兩條記錄,替換語句執行以後,df中再沒有滿足條件「語文或英語為99分」的記錄了。
21.6記錄合並
函數concat()的格式如下:
concat([dataFrame1,dataFrame2,......],ignore_index=True)
其中,dataFrame1等表示要合並的DataFrame數據集合;ignore_index=True表示合並之後的重新建立索引。其返回值也是DataFrame類型。
concat()函數和append()函數的功能非常相似。
例:
import pandas #導入pandas模塊
from pandas import read_excel #導入read_execel
file='d:/student.xlsx' #變數file表示文件路徑,注意'/'的用法 數據見第18章表18-1
df=read_excel(file,sheet_name=0,converters={'學號':str})
# 將Excel文件導入到DataFrame變數中
df=df[:5] #截取df的前5個記錄
print(df) #輸出df
df1=df[:3] #截取df的前3個記錄存入df1中
df2=df[3:5] #截取df的最後2個記錄存入df2中
df3=pandas.concat([df2,df1]) #將df2與df1合並存入df3中
print(df3) #輸出df3
運行結果如下:
序號 學號 姓名 年級 班級 語文 數學 英語 總分 名次
0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN
1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN
2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN
3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN
4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN
序號 學號 姓名 年級 班級 語文 數學 英語 總分 名次
3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN
4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN
0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN
1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN
2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN
由於合並時是將df1合並到df2中,可以看出,索引仍然保持原來的狀態。
21.7統計次數
可以用如下方法統計出某個值在某行或者某個范圍出現的次數。
from pandas import read_excel
file='d:/student.xlsx'
df=read_excel(file,sheet_name=0,converters={'學號':str})
df=df[:5]
print(df)
print(df['語文'].value_counts())
輸出結果如下:
序號 學號 姓名 年級 班級 語文 數學 英語 總分 名次
0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN
1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN
2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN
3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN
4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN
89 3
84 1
91 1
Name: 語文, dtype: int64
可以看出,通過value_counts()函數可以統計出列中各值出現的次數。
value_counts()函數的參數還有 :
ascending,當ascending=True時升序排列,當ascending=False時升序排列(此時該參數可省缺);
normalize,當normalize=True時,顯示的不再是各值出現的次數,而是佔比。
將上例中的語句print(df['語文'].value_counts())改為:
print(df['語文'].value_counts(ascending=True,normalize=True))
則輸出結果變成了:
91 0.2
84 0.2
89 0.6
Name: 語文, dtype: float64
21.8按值查找
print(df['語文'].isin([84,91]))
它的作用是查找『語文』列中值和isin所指的列表中元素一致的記錄,如果找到結果為True,否則為False。
輸出結果:
0 True
1 False
2 False
3 False
4 True
Name: 語文, dtype: bool
21.9數據分區
根據某個分區標准,將數據按照所屬區域進行劃分,並用相應的標簽表示,可以用cut()方法來實現。
語法格式如下:
cut(series, bins, right=True, labels=NULL)
其中:
series表示需要分組的數據;
bins表示分組的依據,是一個列表,其元素為劃分分區的邊界值,如[0,72,96,120],就是劃分3個分區,即0~72、72~96、96~120,默認的是「左包右不包」;
right表示分組時右邊是否閉合;
labels表示分組的自定義標簽,也可以不重新定義。
下面對上述學生成績表中的語文成績進行分組,並增加一個新的列「語文等級」。
import pandas as pd
from pandas import read_excel #導入read_execel
file='d:/student.xlsx'
df=read_excel(file,sheet_name=0,converters={'學號':str})
df['年級']=df['學號'].str.slice(0,2)
df['班級']=df['學號'].str.slice(0,4)
df.總分=df.語文+df.數學+df.英語
bins=[0,72,96,max(df.語文)+1] #
lab=['不及格','及格','優秀']
grade=pd.cut(df.語文,bins,right=False,labels=lab)
df['語文等級']=grade
print(df.head())
print("語文成績分等級統計結果:")
print(df['語文等級'].value_counts())
運行結果如下:
序號 學號 姓名 年級 班級 語文 數學 英語 總分 語文等級
0 1 070101 王博宇 07 0701 84 71 93 248 及格
1 2 070102 陳冠濤 07 0701 89 89 89 267 及格
2 3 070103 李文博 07 0701 89 72 76 237 及格
3 4 070204 姜海燕 07 0702 89 89 89 267 及格
4 5 070205 林若溪 07 0702 91 95 83 269 及格
語文成績分等級統計結果:
及格 17
優秀 10
不及格 4
Name: 語文等級, dtype: int64
Ⅳ Python其實很簡單 第十章 字典與集合
前面介紹的列表和元組都是有序序列,而字典與集合屬於無序序列,也就是說,不能通過索引來操作元素。
10.1 字典
語法格式:
dictionary= {key1 : value1, key2 : value2, key3 : value3 ,...., key n : value n }
其中,dictionary是字典名稱,key表示元素的鍵,value表示元素的值,鍵和值必須是成對的。
如:
>>> dict1 = { 'abc': 123, 98.6: 37 }
>>> dict1
{'abc': 123, 98.6: 37}
可以看出,鍵可以是字元串、數字或者元組,但必須是唯一的;而值可以是任何數據類型,也沒有要求是唯一的。
1、創建字典的方法
方法一:同時給定鍵和值,即「關鍵字參數」形式。
dictionary=dict(key1=value1,key2=value2,.....,key n=value n)
注意:這里的key 必須符合Python標識符的命名規則。
例:
先使用「{}」創建字典:
>>> dict1={1:'一',2:'二',3:'三',4:'四',5:'五'}
>>> dict1
{1: '一', 2: '二', 3: '三', 4: '四', 5: '五'}
再通過「關鍵字參數」形式創建:
>>> dict1=dict(1='一',2='二',3='三',4='四',5='五')
SyntaxError: expression cannot contain assignment, perhaps you meant "=="?
創建不成功,原因在於key 不符合Python標識符的命名規則。前面已經介紹過,標識符不能用數字表示或者用數字打頭。
現在對鍵如下修改:
>>> dict1=dict(n1='一',n2='二',n3='三',n4='四',n5='五') #在數字前加了一個字元」n」
>>> dict1
{'n1': '一', 'n2': '二', 'n3': '三', 'n4': '四', 'n5': '五'}
方法二 :使用已經存在的元組和列表通過映射函數創建字典。
格式:dictionary=dict(zip(tuplekey,listvalue))
例:
>>> tuplekey=('n1','n2','n3','n4','n5') #鍵的序列採用元組
>>> listvalue=['一','二','三','四','五'] #值的序列採用列表
>>> dict1=dict(zip(tuplekey,listvalue))
>>> dict1
{'n1': '一', 'n2': '二', 'n3': '三', 'n4': '四', 'n5': '五'}
注意:tuple(listname)函數可以將列表轉換為元組,list(tuplename)函數可以將元組轉換為列表。
2、通過鍵訪問字典
直接獲取鍵的相應元素的值
>>> dict1['n2']
'二'
利用get()方法
>>> dict1.get('n2')
'二'
get()方法也可以帶參數,當要訪問的鍵不存在時返回一個字元串。如:
>>> dict1.get('n0','can't find!') #當要查找的鍵不存在,返回'can't find!'
"can't find!"
3、遍歷字典
使用字典對象的items()方法可以獲取字典的「鍵.值對」列表。
>>> for item in dict1.items():
print(item)
('n1', '一')
('n2', '二')
('n3', '三')
('n4', '四')
('n5', '五')
也可以獲取具體的每個元素的鍵和值,如:
>>> for key,value in dict1.items():
print(key,'對應的是',value)
n1 對應的是 一
n2 對應的是 二
n3 對應的是 三
n4 對應的是 四
n5 對應的是 五
4、添加、修改和刪除字典元素
使用下面的語句,若指定的鍵存在,就可以修改該元素的值;若指定的鍵不存在,則添加該元素。如:
>>> dict1['n6']='六' # 鍵』n6』不存在,故添加該元素
>>> dict1
{'n1': '一', 'n2': '二', 'n3': '三', 'n4': '四', 'n5': '五', 'n6': '六'}
>>> dict1['n4']='肆' # 鍵』n4』存在,故修改該元素
>>> dict1
{'n1': '一', 'n2': '二', 'n3': '三', 'n4': '肆', 'n5': '五', 'n6': '六'}
5、利用推導式建立字典
import random
dict1={i:random.randint(1,100) for i in range(5)}
# 生成元素的鍵為0到5整數,值為1到100之間的隨機數
print(dict1)
運行結果:{0: 28, 1: 59, 2: 79, 3: 30, 4: 88}
10.2 集合
集合是數學中一個很重要的概念,集合具有確定性、互異性、無序性三個基本屬性。在Python中,集合同樣具有這三個基本屬性,其中,確定性是指對象要麼是集合的元素,要麼不是集合的元素;互異性是指集合中的元素不能重復;無序性是指集合中的元素不分先後次序,可以隨意更換位置。
1、集合的創建
直接使用「{}」創建
>>> set1={'春','夏','秋','冬'}
>>> set1
{'秋', '春', '冬', '夏'}
>>> set2={3,2,1,4,5}
>>> set2
{1, 2, 3, 4, 5}
利用已有的列表、元組創建集合
>>> list1=['東','南','西','北']
>>> set3=set(list1)
>>> set3
{'南', '東', '北', '西'}
利用已有的集合建立一個「副本」
>>> set3
{'南', '東', '北', '西'} #set3和set4的值一樣
>>> set4=set3
>>> set4
{'南', '東', '北', '西'}
>>> set4.add('中') #給set4添加元素
>>> set4
{'西', '中', '東', '南', '北'} # 這個好理解
>>> set3
{'西', '中', '東', '南', '北'} # 意想不到吧?Set3為什麼會發生變化?
再看看簡單變數的情況:
>>> a=2
>>> b=a #是不是與前面set4=set3相似
>>> b+=1
>>> b
3
>>> a
2 #但a的值並沒有發生改變
從上面集合set3、set4和簡單變數a、b的值的變化情況對比,不難發現set3和set4是指向同一地址的對象,而變數a和變數b指向了不同地址,語句b=a是將a的值傳遞個b,並不是將a的地址傳遞給b。列表、元組、字典都和集合一樣具有這樣的性質。
所以,將set4稱為set3的「副本」更為恰當。
2、添加和刪除元素
>>> set3
{'南', '東', '北', '西'}
>>> set3.add('中') # 添加元素
>>> set3
{'西', '中', '東', '南', '北'} # 集合內的元素是無序的,不要糾結次序的變化
>>> set3.remove('中') # 刪除元素
>>> set3
{'西', '東', '南', '北'}
3、集合運算
集合運算包括交(&)、並(|)、差(-),和數學中的集合運算是一致的。
>>> set3={'南', '東', '北', '西'}
>>> set4={'西', '中', '東', '南', '北'}
>>> set3 & set4 #取set3和set4的交集
{'西', '南', '北', '東'}
>>> set3 | set4 #取set3和set4的並集
{'中', '南', '北', '西', '東'}
>>> set3 - set4 #取set3與set4的差,即set3比set4多出來的元素
set()
>>> set4 -set3 #取set4與set3的差,即set4比set3多出來的元素
{'中'}
Ⅵ 學習Python元組,有哪些必須要掌握的內容
學習Python元組,有哪些必須要掌握的內容?
1.Python元組
定義
元組是Python的一種內建數據結構。關於元組:
1、元組屬於序列,可以存放任意元素(任意類型對象),且有序(前後位置關系)。
2、元組支持整數索引訪問其中的數據,也支持切片。
3、元組和列表不同是,元組不可變,列表可變。
元組不可變,某些操作比列表高效。
創建元組
可以用以下兩種方法創建元組:
1、使用()創建
2、使用構造函數tuple()
圖:序列通用操作
Python內置了多種序列結構:字元串、列表、元組、Unicode字元串、buffer對象、range對象。序列是Python中一種重要的數據結構,必須要掌握,也很容易掌握。
Ⅶ Python其實很簡單 第五章 基本數據類型
編程的目的就是為了處理信息,信息則是由各種不同類型的數據表示的,對數據的進一步處理也會使信息更加豐富和有效。
5.1變數
前面已經提到過「變數」這屬語,下面再進一步解釋一下。
在程序運行時,必須把數據導入計算機的存儲單元中,但存儲單元的命名是用二進制數表示的,晦澀難懂。為了方便起見,可以給存儲單元起上一個通俗易懂的名字,即 變數名 。
變數的生命周期和程序的運行周期是相同的,一個程序運行解釋,所佔用的存儲空間也就隨之釋放,用變數名表示的數據所佔用的這個存儲單元也就空閑了。
變數名的命名規則:
由字母、數字、下劃線構成,必須由字母開頭。
不能包含-、*、?、#、、;、/、、@、%、$、空格等特殊字元。
最好使用有含義的英文單詞或漢語拼音。
最好採用小寫字母。
不能使用保留字(已被Python語言系統本身賦予特定意義的單詞)。Python的保留字如下表所示。
Python保留字列表
Python是區分大小寫的,雖然可以將一個英文單詞通過字母大小寫不同而作為不同變數的變數名,但從程序可讀性的角度看,的確不可取。
Python是一種動態類型的語言,變數的類型由變數的值決定。換而言之,給變數賦何種類型的值,變數就是該值的類型。給變數賦值可以通過賦值號(=)來實現。如:
>>> myvar=100
>>> type(myvar)
>>> myvar='tom'
>>> type(myvar)
在這個例子中,變數myvar首先賦值為100,顯而易見,100是個整數,通過type()這個函數檢測,變數myvar的類型為整數類型(int);接下來變數myvar賦值為『tom』,通過type()這個函數檢測,變數myvar的類型改變為字元串類型(str)。
不僅可以給一個變數賦值為常量,也可以賦值為另一個變數。如:
>>> a=100
>>> b=a
>>> b
100
在這個例子中,「b=a」的實際意義是,變數b和變數a指向同一個存儲單元,既然是同一個存儲單元,變數b和變數a本質上就是完全相同的,這就好比一個人除了本名之外,還有其他的名字,如筆名、昵稱、乳名等等,雖然本質一樣,但是可以在不同場合使用。
5.2關於Python的常量問題
在大多數語言中都有常量這個概念,但是Python卻沒有。其實仔細想想也好像沒有設置常量的必要,只要一個變數的值不發生變化,即不給變數重新賦值,它的值當然不會變化,它便是個常量。
5.3基本數據類型
5.3.1整數型和浮點數
整數型(integer),可以是正整數、負整數和0,可以是十進制、八進制、二進制等。
浮點數(float),由整數部分和小數部分組成,主要用於處理包括小數的數。浮點數也可以用科學計數法表示。
5.3.2 字元串類型
字元串類型是由一系列的字母或者其他符號組成的數據序列,通常用單引號、雙引號或三引號括起來。
用單引號和雙引號括起來的字元串只能放在同一行,用三引號括起來的字元串可以分布在連續多行上。如:
name='我的名字叫王小明'
old="今年6歲"
introce='''我想說: 我是中國娃
愛講普通話
要學習寫標準的漢字'''
print(name)
print(old)
print(introce)
運行結果為:我的名字叫王小明
今年6歲
我想說: 我是中國娃
愛講普通話
要學習寫標準的漢字
不管是哪一種引號形式,括起來的部分是一個整體,包括空格和換行符都屬於字元串的一部分。
為了保證特殊的輸出效果,Python中的字元串支持轉義字元,可使用反斜杠「」對一些特殊字元進行轉義。常用的轉義字元如下:
續行符
換行符
空
水平製表符
」 雙引號
』 單引號
一個反斜杠
f 換頁
其中,續行符(「」)用於當一個字元串在一行寫不下時用續行符進行連接,但通常更多的採用小括弧「()」即可。
如:
第一種方法採用續行符(「」):
>>> str="A thousand wishes, a thousand plans and
a thousand resolutions are better than one action!"
>>> print(str)
A thousand wishes, a thousand plans and a thousand resolutions are better than one action!
第二種方法採用小括弧():
>>> str=("A thousand wishes, a thousand plans and "
"a thousand resolutions are better than one action!")
>>> print(str)
A thousand wishes, a thousand plans and a thousand resolutions are better than one action!
下面舉例說明換行符(「 」)的用法:
>>> str=" 登鸛雀樓 白日依山盡, 黃河入海流。 欲窮千里目, 更上一層樓。 "
>>> print(str)
登鸛雀樓
白日依山盡,
黃河入海流。
欲窮千里目,
更上一層樓。
下面舉例說明使用轉義字元輸出雙引號(「)的方法:
>>> str="王之渙的詩《登鸛雀樓》中這樣寫道:" 白日依山盡,黃河入海流。欲窮千里目,更上一層樓。""
>>> print(str)
王之渙的詩《登鸛雀樓》中這樣寫道:" 白日依山盡,黃河入海流。欲窮千里目,更上一層樓。"
>>>
5.3.3布爾類型
布爾類型用來表示邏輯值,所謂邏輯判斷的結果,不外乎「真」或「假」兩種情況。在Python中「真」用True表示,「假」用False表示。如果布爾類型的變數參與算數運算,則True被當作1,False被當作0。
如:
>>> result=True
>>> print(result)
True
>>> print(result+1)
2
>>> result=False
>>> print(result)
False
>>> print(result+1)
1
5.3.4類型強制轉換
Python是一種弱數據類型語言,可以通過給變數重新賦值的方法改變數據類型。但有時為了強制改變數據類型,就要使用類型轉換函數來改變。
譬如,為了從鍵盤讀入成績的數據,可以用float()函數將input()語句讀入的字元串轉換為浮點數,再賦值給變數score。
>>> score=input("請輸入您的成績:")
請輸入您的成績:96.5 (從鍵盤輸入96.5)
為了計算成績比及格線高了多少分,使用下面的命令,發現出現了錯誤提示如下:
>>> score-60
Traceback (most recent call last):
File " ", line 1, in
score-60
TypeError: unsupported operand type(s) for -: 'str' and 'int'
這是屬於類型錯誤,原因是從鍵盤讀入的成績值(96.5)並非數值類型,不能參與算數運算。用type()函數可以進一步查詢變數score的數據類型。
>>> type(score)
使用float()函數進行強制轉換後,就可以解決上述問題:
>>> score=float(input("請輸入您的成績:"))
請輸入您的成績:96.5
>>> score=float(score)
>>> type(score)
>>> score-60
36.5
下表列舉了一些常用的類型轉換函數: