A. 利用Stata進行概要統計及交互表統計
利用Stata進行概要統計及交互表統計
【命令範式】
summarize y1 y2 y3 對所列變數計算簡單的概要統計量
summarize y1 y2 y3, detail 獲取詳細的描述性統計,包括百分位數,中位數,平均數,標准差,方差,偏度,峰度等。
summarize y1 if x1>3 & x2<.
summarize y1 [fweight=w], detail 利用w作為加權變數進行頻數加權,計算y1詳細的概要統計量
tabstat y1, stats(mean, sd, skewness, kurtosis) by(x1) 按變數x1的每個類別,分別計算變數y1的具體指定的概要統計量
tabulate x1, sort miss 顯示x1所有值的頻數分,包括缺失值。按順序從大到小對行(變數值)進行排序。
tab1 x1 x2 x3 x4 對所列變數分別創建頻數分布表
tabulate x1 x2 顯示一個兩變數交互表,其中x1為行變數,x2為列變數
tab2 x1 x2 x3 x4 創建所列變數的所有可能的二維交互表
tabulate x1, summ(y) 創建一個二維表,顯示x1每個類別中變數y的均值、標准差及頻數 tabulate x1 x3, sum(y) means 創建一個二維表,顯示x1,x2每一種組合下y的均值
by x3, sort: tabulate x1 x2, exact 創建一個三維交互表,在x3的每個取值下創建x1(行)和x2(列)的分表,並為每個分表計算費舍精確檢驗,命令by x3, sort為x3排序
table x1 x2, contents(mean y1 median y2) 創建x1(行),x2(列)的二維交互表,單元格包含y1的平均數和y2的中位數
svy: tab y, percent ci 使用調查加權的數據,獲得變數y的一維百分比表以及95%的置信區間。ci計算置信區間,默認為95%。後可添加level(a)設定置信區間a%
與ci相關的一個命令是cii,它可以直接根據概要統計量,來計算正態分布、二項分布或泊松分布的置信區間。它並不需要原始數據。
svy: tab y x, column percent 使用調查加權的數據,獲得一個行變數y對列變數x的二維交互表,並對其狡辯性進行調整的卡方檢驗。單元格中給出了加權的列百分比。
【探測性數據分析】:
stem x1, lines(*) 對變數x1的所有觀測值進行莖葉圖處理lines限定了莖葉表達形式:首位數相同的開頭共*行
lv x2 字元數值表利用序次統計量來分解一個分布。
【正態性檢驗和數據轉換】:
sktest x1 正態性檢驗(偏度與峰度)
ladder x1 這個命令把冪階梯和sktest的正態性檢驗結合在一起。它對階梯上的每一種冪進行嘗試並報告其結果是否顯著地非正態。
gladder x1 該命令將每一種轉換的直方圖與正態曲線加以比較
qladder x1 四分位階梯命令
(可鍵入help ladder查看詳細)
【頻數表和二維交互表】:
tabulate 有許多對創建二維表非常有用的選項,包括:
cell 顯示每個單元格的總百分比
chi2對行變數和列變數獨立的假設進行皮爾遜卡方檢驗
column 顯示每個單元格的列百分比
exact 獨立性假設的費舍精確檢驗
expected 顯示獨立性假定下二維表每個單元格內的期望頻數
generate(new) 創造一組名為new1, new2 等的虛擬變數來代表被列表變數的取值
lrchi2 對獨立性假設的似然比卡方檢驗。如果表格包含任何的空單元格,就得不到結果 missing 把缺失值也作為表的一行或一列
nofreq 不顯示單元格頻數
nolabel 顯示數值而不是添加了標簽的數值變數的取值標簽
row 顯示每個單元格的行百分比
tabi 偶爾我們可能需要在沒有獲得原始數據的情況下對已發表的表格重新進行分析,專門的命令tabi(直接製表)可以完成這項工作
【多表和多維交互表】:
tab1 x1 x2 x3 x4 對所列變數分別創建頻數分布表
tab2 x1 x2 x3 x4 創建所列變數的所有可能的二維交互表
by x1, sort: tabulate x2 x3, nofreq col chi2 三維列聯表,並對x1每一取值水平內x2,x3的獨立性進行卡方檢驗
by x1 x2, sort: tabulate x3 x4, column chi2 四維交互表
table x1, contents(freq) 創建x1的簡單的頻數分布表
table x1 x2, contents(freq) by(x3)創建一個二維頻數表或交互表,並通過x3分組 table 的contents()選項設定表格單元格要包含什麼統計量
contents(freq) 頻數
contents(mean x1) x1的平均數
contents(count x1) x1的非缺失值觀測案例的計數
contents(p1 x1) x1的第1百分位數
【平均數、中位數以及其他概要統計量的列表】:
tabulate 能夠很容易地創建分類變數每一類別的平均數和標准差的列表。比如,如果要列出x1每一類別內x2的平均值,鍵入:tabulate x1, sum(x2)
創建一個平均值的二維表: tabulate x1 x2, sum(x3) means
table不能進行統計檢驗,但它能很好地創建多達七維的包含平均數、標准差、總和等統計量的表格。
table x1, contents(mean x2) x1的一維表格,含有x1每一類別下x2的平均值
table x1 x2, contents(mean x3 median x3)
summarize, tabulate, table 以及其他相關命令都可以和標示重復觀測數目的頻數權數frequency weight 一起使用。
tabulate x1 x2 [fweight=count] (,column nof)
B. stata怎麼讓皮爾遜相關系數展示星號
stata怎麼讓皮爾遜相關系數展示星號?STATA 常用命令集
一、調整變數格式:
format x1 %10.3f ——將x1的列寬固定為10,小數點後取三位
format x1 %10.3g ——將x1的列寬固定為10,有效數字取三位
format x1 %10.3e ——將x1的列寬固定為10,採用科學計數法
format x1 %10.3fc ——將x1的列寬固定為10,小數點後取三位,加入千分位分隔符
format x1 %10.3gc ——將x1的列寬固定為10,有效數字取三位,加入千分位分隔符
format x1 %-10.3gc ——將x1的列寬固定為10,有效數字取三位,加入千分位分隔符,加入「-」表示左對齊。
二、合並數據:
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge using "C:\Documents and Settings\xks\桌面\1999.dta"
——將1999和2006的數據按照樣本(observation)排列的自然順序合並起來
use "C:\Documents and Settings\xks\桌面\2006.dta", clear
merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort
——將1999和2006的數據按照唯一的(unique)變數id來合並,在合並時對id進行排序(sort)
建議採用第一種方法。
三、對樣本進行隨機篩選:
sample 50
在觀測案例中隨機選取50%的樣本,其餘刪除
sample 50,count
在觀測案例中隨機選取50個樣本,其餘刪除
四、查看與編輯數據:
browse x1 x2 if x3>3 (按所列變數與條件打開數據查看器)
edit x1 x2 if x3>3 (按所列變數與條件打開數據編輯器)
五、數據合並(merge)與擴展(append)
merge表示樣本量不變,但增加了一些新變數;append表示樣本總量增加了,但變數數目不變。
one-to-one merge:
數據源自stata tutorial中的exampw1和exampw2
第一步:將exampw1按v001~v003這三個編碼排序,並建立臨時資料庫tempw1
clear
use "t:\statatut\exampw1.dta"
su ——summarize的簡寫
sort v001 v002 v003
save tempw1
第二步:對exampw2做同樣的處理
clear
use "t:\statatut\exampw2.dta"
su
sort v001 v002 v003
save tempw2
第三步:使用tempw1資料庫,將其與tempw2合並:
clear
use tempw1
merge v001 v002 v003 using tempw2
第四步:查看合並後的數據狀況:
ta _merge ——tabulate _merge的簡寫
su
第五步:清理臨時資料庫,並刪除_merge,以免日後合並新變數時出錯
erase tempw1.dta
erase tempw2.dta
drop _merge
數據擴展append:
數據源自stata tutorial中的fac19和newfac
clear
use "t:\statatut\fac19.dta"
ta region
append using "t:\statatut\newfac"
ta region
合並後樣本量增加,但變數數不變
六、做圖
莖葉圖:
stem x1,line(2) (做x1的莖葉圖,每一個十分位的樹莖都被拆分成兩段來顯示,前半段為0~4,後半段為5~9)
stem x1,width(2) (做x1的莖葉圖,每一個十分位的樹莖都被拆分成五段來顯示,每個小樹莖的組距為2)
stem x1,round(100) (將x1除以100後再做x1的莖葉圖)
直方圖
採用auto資料庫
histogram mpg, discrete frequency normal xlabel(1(1)5)
(discrete表示變數不連續,frequency表示顯示頻數,normal加入正太分布曲線,xlabel設定x軸,1和5為極端值,(1)為單位)
histogram price, fraction norm
(fraction表示y軸顯示小數,除了frequency和fraction這兩個選擇之外,該命令可替換為「percent」百分比,和「density」密度;未加上discrete就表示將price當作連續變數來繪圖)
histogram price, percent by(foreign)
(按照變數「foreign」的分類,將不同類樣本的「price」繪制出來,兩個圖分左右排布)
histogram mpg, discrete by(foreign, col(1))
(按照變數「foreign」的分類,將不同類樣本的「mpg」繪制出來,兩個圖分上下排布)