『壹』 stata兩變數相差很大怎麼畫圖
stata兩變數相差很大畫圖:直方圖:首先輸入命令:histogram number,frequency (劃線部分為研究變數,根據自己研究喚毀問題來輸入)
繪制結果分析 :自變數number指城市擁有技工學校的數量,frequency指擁有某一特定數量的城市的頻次。顯然,由圖可知,擁有技慧激工學校數量少的城市數量是佔比最大的。 最後給前鏈襪圖加個標題,輸入命令:histogram number,frequency title(」案例結果「)。
Stata是一個非常有特色的統計分析軟體,和 SAS、SPSS 一起,被稱為新的三大權威統計軟體。
Stata 最為突出的特點是短小精悍、功能強大,整個系統只有 10M 左右,但已經包含了全部的統計分析、數據管理和繪圖等功能,尤其是他的統計分析功能極為全面,故而已經在科研、教育領域得到了廣泛應用。
『貳』 如何用stata 做一個相關性分析的矩陣
在stata里help cor。
stata的命令名是correlate [varlist] [if] [in] [weight] [, correlate_options]
stata 裡面分析相關性的命令是
pwcorr a b c d e , sig
結果就有了包括了顯著性的判消侍閉斷標准,stata裡面沒有星星,直接根據sig,也就是p的值來判斷是否顯著就好。
(2)stata直方圖命令擴展閱讀:
作圖功能
Stata的作圖模塊,主要提供如下八種基本圖形的製作 : 直方圖(histogram),條形圖(bar),百分條圖 (oneway),百分圓圖(pie),散點圖(two way),散點圖矩陣(matrix),星形圖(談氏star),分位數圖。
這些圖形的巧妙應用,可以滿足絕大多數用戶的統計作圖要求。在有些非繪圖命令中,也提供了專門繪制某種圖形的功能,如在生存分析中,提供了繪制生存曲線圖,回歸分析中提供了殘差圖等。
Stata的矩陣運算功能
矩陣代數是多元統計分析的重要工具, Stata提供了多元統計分析中所需的矩陣基本運算,如矩陣的加、積、逆、 Cholesky分解、 Kronecker內積等;還拿裂提供了一些高級運算,如特徵根、特徵向量、奇異值分解等。
在執行完某些統計分析命令後,還提供了一些系統矩陣,如估計系數向量、估計系數的協方差矩陣等。
『叄』 求教STATA中面板數據單位根檢驗的做法
面板數據的單位根檢驗方法有很多種,一般我們只選兩種,即相同根單位根檢驗和不同根單位根檢驗。
如果數據是平衡的,則可使用LLC檢驗(適用於同根)和IPS檢驗(適用於不同根)。
一般的stata並沒有自帶這兩個程序需要自己下載安裝,我們可以在命令欄鍵入:search levinlin, net和search ipshin, net,然後按照提示逐步安裝。接著就可以進行變數的單位根檢驗。輸入如下命令:Levinlin 變數名,lags(1)Ipshin 變數名,lags(1)
例:
1、levinlin lntfp,lags(1)
出現以下結果:
Levin-Lin-Chu test for lntfp Deterministics chosen: constant
Pooled ADF test, N,T = (31,9) Obs = 217
Augmented by 1 lags (average) Truncation: 6 lags
coefficient t-value t-star P > t
-1.18963 -15.196 -6.06106 0.0000
LLC檢驗的原假設是H0: 有單位根,P值為0,拒絕原假設,所以不存在單位根。
2、ipshin lntfp,lags(1)
出現以下結果:
Im-Pesaran-Shin test for cross-sectionally demeaned lntfp
Deterministics chosen: constant
t-bar test, N,T = (31,9) Obs = 217
Augmented by 1 lags (average)
t-bar cv10 cv5 cv1 W[t-bar] P-value
-2.348 -1.700 -1.750 -1.850 -4.272 0.000
同樣說明沒有單位根。
如果存在單位根,則需要進行一階差分,並再次進行單位根檢驗,輸入以下命令:
levinlin D.變數名,lags(1)
Stata的作圖模塊,主要提供如下八種基本圖形的製作 : 直方圖(histogram),條形圖(bar),百分條圖 (oneway),百分圓圖(pie),散點圖(two way),散點圖矩陣(matrix),星形圖(star),分位數圖。
這些圖形的巧妙應用,可以滿足絕大多數用戶的統計作圖要求。在有些非繪圖命令中,也提供了專門繪制某種圖形的功能,如在生存分析中,提供了繪制生存曲線圖,回歸分析中提供了殘差圖等。
Stata是一個統計分析軟體,但它也具有很強的程序語言功能,這給用戶提供了一個廣闊的開發應用的天地,用戶可以充分發揮自己的聰明才智,熟練應用各種技巧,真正做到隨心所欲。
事實上,Stata的ado文件(高級統計部分)都是用Stata自己的語言編寫的。
Stata其統計分析能力遠遠超過了SPSS,在許多方面也超過了SAS!由於Stata在分析時是將數據全部讀入內存,在計算全部完成後才和磁碟交換數據。
因此計算速度極快(一般來說, SAS的運算速度要比SPSS至少快一個數量級,而Stata的某些模塊和執行同樣功能的SAS模塊比,其速度又比SAS快將近一個數量級!)Stata也是採用命令行方式來操作,但使用上遠比SAS簡單。
其生存數據分析、縱向數據(重復測量數據)分析等模塊的功能甚至超過了SAS。用Stata繪制的統計圖形相當精美,很有特色。
(3)stata直方圖命令擴展閱讀:
面板數據維度的確定
在面板數據進行模型估計前,要進行面板數據的維度確定。由於面板數據既有截面數據又有時間序列,而stata不能自動識別,因此,必須使得stata得知哪一部分是截面數據,而哪一部分是時間序列。
設置面板數據維度的基本命令為:
xtset panelvar timvar [, tsoptions]
其中panelvar代表截面數據變數,timvar代表時間序列變數。
選取某一面板數據進行維度設定(該數據研究職業培訓津貼對廠商廢棄率的影響):
xtset fcode year
『肆』 如何用stata畫圖
//lecture 6
cd /Victor/stata
use "nei_sample.dta",clear
edit zipcode
//split默認根據空格拆分 stub前綴 prase on these strings根據什麼拆分(通過觀察)
split facilityname_origin, generate(varnew) parse(,)
split zipcode,generate(zipnew) parse(-)//在2894行 有的沒有破折號需要提取前五位
//按照某種符號拆分字元串
edit zipcode
help substr
//截取
gen zip5=substr(zipcode,1,5)
//生成zip5,表示截取zipcode的前五位 從第一位 截取五位
edit zipcode zip5 if length(zip5) ~=5
//展示長度不等於5的zip5和zipcode
edit zip5
gen len_cn = ustrlen(zipcode)
//生成中文字元串長度
edit fips
gen fips2 = substr(fips, 1,2)
edit fips2
gen fips3 = substr(fips, 3,3)
edit fips2 fips3
destring fips2, replace force
destring fips3, replace force
//字元變數值
tostring fips2 fips3, replace force
//數值變字元
edit fips2 fips3
replace fips2="0"+fips2 if length(fips2)==1
replace fips3="0"+fips3 if length(fips3)==2
replace fips3="00"+fips3 if length(fips3)==1
//前面用零補齊,補成五位
help plicates
//重復觀測值
sort newid
plicates report newid year
//報告重復觀測值
//copies代表這個數據一共有多少個 =1就代表沒有重復 第4541隻有一個觀測值newid
plicates tag newid year, gen(p)
//標注重復觀測值
tab p
//展示搭枯
edit new year if p>=177
plicates drop newid year, force
//去掉重復樣本//兩個都一樣才丟掉
plicates report newid year
ssc install unique
//安裝unique
unique newid year
//展示有幾個是唯一的
unique fips
use nei_sample.dta, clear
help collapse
//壓縮
collapse (sum) so2 co nox nh3 voc (first) facilityname_origin fips zipcode , by(newid year)
//根據newid year重復的字元串變數 (first)後面薯段的三個只取第一個數據 數值變數so2等等。。加總(sum) 沒涉及的變數就丟掉了
plicates report newid year
collapse (sum) so2 co nox nh3 voc (count) newid, by(fips year)
//關於fips year 加總。數出newid(在fips year全都相同的情況下有幾個newid(企業))
//每個地區每一年污染物的多知手洞少,企業有多少
gen id = newid
//replace
//改變面板數據的結構
use nei_sample.dta, clear
help reshape
keep newid year so2
plicates drop newid year, force
reshape wide so2 , i(newid) j(year)
reshape long so2 co nox voc nh3, i(newid) j(time)
//將寬表和長表相互轉換
keep newid year co
reshape wide co,i(newid) j(year)
plicates drop newid year,force
reshape wide co,i(newid) j(year)
reshape long co,i(newid) j(year)//觀測值變成了999*12,轉換兩次之後,數據變成
*balanced data(平衡面板數據)了 也是為了便於做可視化分析,計量分析
//lecture 7
cd /Victor/stata
use "nei_sample.dta",clear
keep newid year so2
//保留這三個
help reshape
//數據重排
plicates drop newid year, force
reshape wide so2 , i(newid) j(year)
//不同問題下i不同 這里的i是企業 j是時間
reshape long so2 co nox voc nh3, i(newid) j(time)
//reshape//long wide lecture7
use "nei_sample.dta",clear
keep newid year so2 co nox voc nh3 sic
plicates drop newid year, force
reshape wide so2 co nox voc nh3, i(newid sic) j(year)
keep newid year so2 co nox voc nh3 sic
reshape wide so2 co nox voc nh3, i(newid sic) j(year)
//數據變少了是因為有的newid對應多個sic
reshape long so2 co nox voc nh3, i(newid sic) j(year)
//通過這種方式將它強行變成平衡面板 先wide 後long(意義重大)
use nei_sample,clear
keep so2 co nox voc nh3 newid year
plicates drop newid year,force
reshape wide so2 co nox voc nh3,i(newid) j(year)
reshape long so2 co nox voc nh3,i(newid) j(time)//三千多個變成了一萬多個
*reshape之後每一個企業都在每一年1990——2011有觀測值,強行將數據變為balanced
ren (so2 co nh3 nox voc) (pol1 pol2 pol3 pol4 pol5)
//更改變數名 為了保證前綴都一樣 才能轉換
*sample
rename so2 pu1
rename co pu2
rename nox pu3
rename voc pu4
rename nh3 pu5
reshape long pu,i(newid time) j(type)
tostring type,replace
replace type="so2" if type=="1"
replace type="co" if type=="2"
replace type="nox" if type=="3"
replace type="voc" if type=="4"
replace type="nh3" if type=="5"
keep newid year pol1 pol2 pol3 pol4 pol5
reshape long pol, i(newid year) j(type)
//??? 沒有drop
tostring type, replace force
//???
replace type = "so2" if type == 1
//替代污染物名稱
use "nei_sample.dta",clear
plicates drop newid year, force
//去掉重復值
edit newid year so2
sort newid year
by newid: gen l1so2 = so2[_n-1]
//so2[1] so2[_N] n-1代表上一行的觀測值 通過企業來分 每個n對於企業來說是不一樣的
by newid: gen l2so2 = so2[_n-2]
//上兩行
by newid: gen l0so2 = so2[_n]
by newid: gen f1so2 = so2[_n+1]
//滯後一期
bys newid: gen Nso2 = so2[_N]
//展示這個企業最後一年的數據
bys newid: gen n1so2 = so2[1]
//有時需要保證它是一個平衡面板:可利用以下命令
xtset newid year
//set panel variable 讓他成為面板數據 如果不告訴它 它永遠按上一行處理
gen lso2 = l.so2
//l.代表上一期的滯後變數(上一年)這個和上一行的數據不一樣喔 有時可能上一行不是上一年 就沒有上一期了
use "nei_sample.dta",clear
plicates drop newid year, force
edit fips year newid
sort fips year newid
by fips year: egen id_sum = count(newid)
//通過fips year來分 如果兩個都相同就算一次
edit fips year newid so2
by fips year: egen so2_fips = sum(so2)
//missing values
//得到地區層面的數據 用於變數的構造 通過微觀數據做加總數據又保留微觀數據本身
//
use "nei_sample.dta",clear
help collapse
collapse (sum) so2 co nox nh3 voc (first) facilityname_origin fips zipcode , by(newid year)
//構造更高層面的行業數據 微觀數據全部損失了. 加總相同年份的污染量,(first)後面的是只保留第一行
plicates report newid year
collapse (sum) so2 co nox nh3 voc (count) newid, by(fips year)
gen id = newid
//replace
//collapse by 2_digit sic and fips_stata (2_dight fips), and year,
use "nei_sample.dta",clear
gen fips3 = substr(fips,1,2)
gen sic2 = substr(sic,1,2)
collapse (sum) so2 co nox nh3 voc ,by( fips3 sic2 year)
//lecture 8
//圖形的組成
sysuse uslifeexp2
decribe
scatter le year
//第一個是y 第二個是x軸
//connect(l) 表示以直線的方式連接相鄰的兩個點
//msymbol(i) 表示散點的顯示方式為「看不見」
scatter le year, connect(l)
scatter le year, connect(l) msymbol(i)
scatter le year, connect(l) msymbol(smdiamond)
//散點形狀改為棱形
scatter le year, connect(l) msymbol(smdiamond) mcolor(lime)
//標記間連線的方式,標記本身的形狀,標記的顏色
help marker_options
//標記標簽的選擇
graph query symbolstyle
help marker_label_options
sysuse lifeexp.dta, clear
describe
list country lexp gnppc if region == 2
scatter lexp gnppc if region == 2, mlabel(country)
scatter lexp gnppc if region == 2, mlabel(country) mlabpos(9)
//將標簽調整到九點鍾方向 這樣美國就可以顯示出來了
//下面嘗試利用 mlabvposition(varname) 選項為某些特殊選項的觀測值設定標簽的位置 為了單獨為美國和宏都拉斯設定標簽顯示方向,
//需要生成一個指標方向的變數,命名為破碎,然後利用這個變數對每個案例的不同附值來調整各個散點的標簽位置
generate pos = 3
//所有國家都是3
replace pos = 12 if country == "Honras"
replace pos = 9 if country == "United States"
scatter lexp gnppc if region == 2, mlabel(country) mlabv(pos)
//下面嘗試利用改變坐標軸的覆蓋范圍來設定標簽
//方法一:利用xscale(range())指定作圖的區域
scatter lexp gnppc if region ==2,mlabel(country) mlabv(pos) xscale(range(-500 3500))
//方法二:利用plotregion( margin())來解決作圖區域的微小變動
scatter lexp gnppc if region == 2,mlabel(country) mlabv(pos) plotregion(margin(l+9))
sysuse autornd, clear
descrbe
scatter mpg weight
scatter mpg weight, jitter(7)
//由於數據點太密集了,產生重疊,需要將數據點輕微地挪動位置,jitter(#)震盪選項
//二維繪圖選項,help twoway
//標題選項,坐標,圖例,增加線,by
sysuse lifeexp.dta, clear
scatter lexp gnppc
gen log_gnppc = log(gnppc)
//對數化,更線性
scatter lexp log_gnppc
//另一種方法:
scatter lexp gnppc, xscale(log)
//做散點圖,並對比y軸刻度使用正常尺度與逆向尺度的異同
sysuse auto.dta, clear
scatter mpg weight
scatter mpg weight, yscale(rev)
//車重與油耗正相關
//下面繪制完全沒有任何坐標的散點圖和有坐標刻度但沒有坐標線的散點圖
scatter mpg weight, yscale(off)
//不要y軸
scatter mpg weight, yscale(noline) xscale(noline)
//去掉了坐標線,保留刻度
help axis_label_options
sysuse auto, clear
describe
sum
//下面分別繪值mpg、weight的標有大約坐標軸上5個10個刻度標識的mpg和weight散點圖
scatter mpg weight
scatter mpg weight, ylabel(#5) xlabel(#5)
scatter mpg weight, ylabel(#10) xlabel(#10)
scatter mpg weight, ylabel(10(5)45) xlabel(1500 1970 2500(1000)4500)
//自定義規則
scatter mpg weight, ytick(#10) xtick(#15)
//繪制x軸大約有15個刻度,y大約10個刻度
scatter mpg weight, ymlabel(##5) xmtick(##10)
//把小刻度的標識也標上去,x軸主刻度之間有10個小刻度
scatter mpg weight , ymlabel(##5) xmlabel(##10)
//時間序列散點圖時的軸線刻度標識問題
sysuse uslifeexp, clear
scatter le year, c(l)
scatter le year, c(l) xlabel(#10,grid)
//網格,用線連
scatter le year, c(l) xlabel(1900(10)2000,grid)
scatter le year, c(l) xlabel(1900 1918 1936 1950(20)2000,nogrid)
scatter le year, lcolor(yellow) c(l) xlabel(1900 1918 1936 1950(20)2000,nogrid)
line le year, lcolor(navy) lpattern(dot)
sysuse uslifeexp, clear
scatter le year, c(l) xlabel(1990 1918 1940(20)2000,grid) legend(on)
label var le_male "男人,人均壽命"
scatter le_male le_female year, legend(label(1 "Male") label(2 "Female"))
//繪制散點圖並添加圖例,將圖例分別改為」male」和」female「
scatter le_male le_female year, c(l) legend(on)
//legend是圖例
『伍』 stata直方圖設置間距
stata直方圖設置間距如下:
直方圖是用矩形的面積(即長度和寬度)來表示頻數分布的圖形,在慎陸手平面直角坐標系中,一般用寬嫌縱軸表示頻數或頻率,用橫軸表示數據悉圓的分組。通過該種圖形,用戶可以較為直觀地了解數據的整體情況,如分布類型、中心位置、分散程度等。
『陸』 普林斯頓Stata教程之Stata做圖
2.1 散點圖
2.2 線圖
2.3 其他圖形
2.4 圖形管理
Stata擁有出色的圖形設備,可通過 graph 命令訪問, help graph 了解概述。統計中最常見的圖表是顯示點或線的雙坐標軸X-Y圖。這可以通過子命令 twoway 實現。 twoway 命令中又含42個子命令及繪圖類型,其中最重要的是 scatter 和 line 。我們將對 scatter 和 line 著重介紹,並簡要介紹其他繪圖類型。
Stata 10引入了一個圖形編輯器,可用於互動式地修改圖形。然而,我不會提倡這種做法,因為它與記錄和確保研究中所有步驟可重復的目標相沖突。
本節中的所有圖表(除非另有說明)都使用帶藍色標題和白色背景的自定義方案,我將在第2.2.5節對方案進行討論。
在本節中,我將使用前文使用過的有關生育率下降的 effort 數據集進行圖表說明。讀取數據:
為了激起你的興趣,先展示我們將在本節中完成的作品:
可以使用以下命令生成生育率變化(change)與社會環境(setting)關系的簡單散點圖:
請注意,首先指定的變數是在Y軸。如果變數有定義標簽,則坐標軸顯示變數標簽名,若無定義則顯示變數名。如果這是唯一的圖,該命令可以縮寫為 twoway scatter ,或者 scatter 。現在我們將添加一些東西。
假設我們也想顯示擬合的回歸線。在某些軟體包中,您需要運行回歸,計算擬合線,然後對其進行繪制。Stata可以使用 lfit 繪圖類型一步完成所有操作(還有一個二次擬合繪圖類型 qfit )。通過將每個子圖封閉在括弧內,可以將它與散點圖結合使用(也可以使用兩條豎線來分隔它們)。
現在假設我們想在回歸線上放置置信區間。Stata可以通過 lfitci 來實現這一點,該繪圖類型將置信區域繪制為灰色帶。(還有一個 qfitci 類型用於二次擬合的頻帶。)因為置信帶會遮蔽一些點,所以我們先繪制該區域再繪制點
請注意,該命令不會標記y軸,而是使用圖例。您可以使用該 ytitle() 選項為y軸指定標簽,並隱藏圖例 legend(off) :
有很多選項可以讓你控制點的標簽,包括它們的形狀和顏色,參見 help marker_options 。使用 mlabel(varname) 選項也可以用變數的值標記點。在下一步中,我們將國名添加到圖中:
標簽中的一個小問題是哥斯大黎加和特立尼達多巴哥(以及巴拿馬和尼加拉瓜)相互重疊。我們可以使用12小時時鍾指定標簽相對於標記的位置來解決這個問題(12是上面的,3是右邊,6是下面,9是在標記的左邊)。
我們創建一個變數,將默認設置的位置保持為3點,然後將哥斯大黎加移動到9點,特立尼達多巴哥移動到11點以上的位置(我們也可以將尼加拉瓜和巴拿馬上移位,到2點方向):
生成此版本圖形的命令如下
有些選項適用於所有雙向圖形,包括標題,標簽和圖例等。Stata圖表的 title() 和 subtitle() 通常在頂部, legend() , note() 和 caption() 通常在底部,更多信息鍵入 help title_options 。通常你只需了解標題即可。Stata 11允許圖形中的文本包括粗體,斜體,希臘字母,數學符號和字體選擇。Stata 14引入了Unicode,大大擴展了可以完成的工作。 help graph text 以了解更多信息。
我們對圖表的最後調整是添加一個圖例來指定線性擬合和95%置信區間。我們使用 order(2 "linear fit" 1 "95% CI") 命令,圖例的選項按照該順序標記第二個和第一個項目。我們還使用 ring(0) 將圖例移動到繪圖區域內,並使用 pos(5) 將圖例框放置在5點鍾位置附近。完整命令就是:
結果就是本節開始處顯示的圖形
有一些選項可以控制軸的縮放比例和范圍,包括 xscale() 和 yscale() 。可以是算術,對數值等。更多信息 help axis_scale_options 。其它選項控制主要和次要記號和標簽,如 xlabel() , xtick() and mtick() ,同樣地,對於y軸,見 help axis_label_options 。通常默認值是可以接受的,但還是很高興您知道它們是可以更改的。
將使用美國預期壽命數據來說明線圖,這試數據Stata附帶的數據集之一(試試 sysuse dir 看看還有什麼可用的)。
我們的目標是繪制20世紀美國白人和黑人男性的預期壽命。為了激發你的興趣,將先向你展示最終成果,然後我們將一點一點地構建圖表。
最簡單的圖形所有參數使用默認值:
如果這就是我們所要的圖形,可以將命令縮寫為 twoway line ,或者 line (只適用於散點圖和線圖)。
線圖允許我們指定多個「y」變數,順序為y1,y2,...,ym,x。本例中,我們指定了兩個——對應於白人男性和黑人男性的預期壽命。或者,我們可以使用兩條線圖: (line le_wmale year) (line le_bmale year) 。
默認圖形很好,但圖例似乎太羅嗦。我們會將大部分信息轉移到標題中,並且只保留膚色信息:
在這里,我使用了三個選項: title , subtitle 和 legend 。 legend 選項有許多子選項; 此處用 order 列出關鍵點(即 1 和 2 )及其標簽,說明第一條線代表白人,第二條線代表黑人。要省略關鍵點,只需將其從列表中移除即可。其他的圖例選項,請參閱 help legend_option 。
下面我希望在畫圖區域內移動圖例來改善空間,比如說在5點鍾左右的位置有空餘空間。如前所述,我們可以通過使用 ring(0) 將圖例移動到繪圖區域內,並通過 pos(5) 將其置於5點鍾位置附近。因為這些都是圖例子選項,所以都在 legend() 命令括弧中輸入:
我不知道你感覺如何,但我自己很難區分圖畫中的默認線條。Stata中有不同的方式控制線條樣式。 clstyle() 選項可以讓你使用已命名的不同風格,比如 foreground , grid , yxline ,或是根據線1~15使用樣式命名的 p1-p15 ,詳情請參閱 help linestyle 。如果您想根據方案選擇合適樣式元素,這非常有用。
您也可以指定樣式的三個成分從而確定風格:線條樣式,寬度和顏色:
我們將白人指定為藍色,黑人指定為紅色:
請注意,這 clcolor() 是線圖的一個選項,所以我將括弧放在 line 命令的周圍並把 clcolor() 插入那裡。
由上圖我們可以看出,預期壽命的提升速度在20世紀下半葉有所減緩。使用對數刻度可以更直觀的理解,需要注意的是對數刻度中直線表示恆定的改善幅度。這由 help axis_options 可以很容易完成。尤其是 yscale() ,它可以讓你選擇算數( arithmetic ),對數( log )或倒置刻度( reversed )。其中倒置刻度是指y軸是從最大的值開始的,最小值反而在最上方。還有一個子選項 range() 可以控制繪圖范圍。在這里,我將y范圍指定為25到80,以便將曲線稍微向上移動:
Stata使用方案來控制圖的外觀,參見 help scheme 。您可以設置默認方案並在所有圖形中應用 set scheme_name 。您也可以使用不同的方案對所作的最後一個圖形重新展示,選出效果最好的方案 graph display, scheme(scheme_name) 。
使用 graph query, schemes 查看可用方案類型列表。 s2color 方案適用於屏幕圖表, s1manual 是Stata手冊中的風格。 economist 是經濟學人雜志使用的風格。我們可以獲得本節開頭所示的圖形使用的是 economist 風格。
條形圖可用於繪制分類變數的頻數分布,或繪制由分類變數定義的組內連續變數的描述性統計。我們將使用Stata附帶的城市溫度數據集為例說明。
如果我只是鍵入 graph bar, over(region) 我將獲得區域變數的頻數分布。讓我們來展示一月和七月的平均氣溫的區域分布。要做到這一點,我可以指定 (mean) tempjan (mean) tempjuly ,但由於默認統計是平均值,我們可以簡寫如下。我認為默認圖例太長,所以也指定了一個自定義圖例。
我使用 over() 這樣所以區域出現在同一個圖表中;· by() 則相反,每個區域都會產生一個單獨的坐標軸。 bargap() 選項則控制同一個組中不同統計的小節之間的間隔; 在這里我放了一個小空間。 gap() (此處未使用)選項控制不同組別的空間。我還將顏色填充強度設置為70%,我認為這看起來更好。
顯然,1月份東北部和北部中部地區比南部和西部冷得多。七月份的變化較少,但南部的氣溫較高。
使用箱線圖可以快速獲得變數分布的特徵,箱線圖是取值范圍為1~3分位數的箱子,將中位數用橫線顯示,並且在盒子上下方增加了「wiskers」,定義為距離中值不超過四分位數間距的1.5倍的最高和最低值。在wiskers上下方的點用圓圈表示為異常值。
讓我們畫一個地區1月份的溫度箱形圖。我將使用 over(region) 選項,並用 sort(1) 選項控制排列順序——按照第一個變數 tempjan 中位數大小排列。我還通過設定RGB值將顏色設置為藍色:
我們看到,1月份的氣溫在東北部和北部中部地區較低,變化較小,相當一部分城市氣溫異常偏冷。
對變數分布更詳細的展示需要用到平滑直方圖,可以使用 kdensity 命令使用核密度平滑器計算平滑直方圖。
讓我們使用默認設置對每個區域的1月溫度進行單獨的核密度估計,並保存結果。
接下來我們做出核密度估計圖。由於密度圖重疊,我使用Stata 15中引入的不透明選項使它們透明度達到50%。在這種情況下,我使用顏色名稱後面跟著一個%符號和不透明度。我也簡化了圖例,匹配密度的順序,並把它放在圖示的右上角。
這個圖示使我們清楚地看到了1月份氣溫的區域差異,東北部和北部中心地區的氣候分布更冷,更窄,南部和西部的氣候相當相似。
Stata默認在內存中保存您繪制的最後一個圖形,並將其稱為「Graph」。如果你在在創建圖形時使用 name() 為圖形單獨命名,在內存中可以保留多個圖形。這對於組合圖形很有用, help graph combine 了解更多。請注意,即使您保存了數據,保存在內存中的圖表也會在您退出Stata時消失,除非您保存圖形本身。
要使用Stata自己的格式將當前圖形保存到磁碟上,輸入 graph save filename 。該命令有兩個選項 replace 和 asis ,如果該文件已存在,則需要使用 replace 選項替代原有圖形,而 asis 選項會凍結圖形(包括其當前風格),然後將其保存。默認情況下,將圖形保存為可在未來可編輯的實時格式。以Stata格式保存圖形後,可以使用 graph use filename 命令從磁碟載入它。( graph save 和 graph use 類似於 save 和 use )存儲在內存中的任何圖形可以使用 graph display [name] 顯示。 help graph_manipulation 了解更多信息。
如果您打算將圖表合並到另一個文檔中,您可能需要將其保存為更便攜的格式。Stata的命令 graph export filename 可以使用各種矢量或光柵格式導出圖形,通常由文件擴展名指定。您還可以使用 graph print 列印圖形,或使用Windows剪貼板將其復制並粘貼到文檔中。
『柒』 如何用stata畫直方圖
histo命令可以的
『捌』 利用Stata進行概要統計及交互表統計
利用Stata進行概要統計及交互表統計
【命令範式】
summarize y1 y2 y3 對所列變數計算簡單的概要統計量
summarize y1 y2 y3, detail 獲取詳細的描述性統計,包括百分位數,中位數,平均數,標准差,方差,偏度,峰度等。
summarize y1 if x1>3 & x2<.
summarize y1 [fweight=w], detail 利用w作為加權變數進行頻數加權,計算y1詳細的概要統計量
tabstat y1, stats(mean, sd, skewness, kurtosis) by(x1) 按變數x1的每個類別,分別計算變數y1的具體指定的概要統計量
tabulate x1, sort miss 顯示x1所有值的頻數分,包括缺失值。按順序從大到小對行(變數值)進行排序。
tab1 x1 x2 x3 x4 對所列變數分別創建頻數分布表
tabulate x1 x2 顯示一個兩變數交互表,其中x1為行變數,x2為列變數
tab2 x1 x2 x3 x4 創建所列變數的所有可能的二維交互表
tabulate x1, summ(y) 創建一個二維表,顯示x1每個類別中變數y的均值、標准差及頻數 tabulate x1 x3, sum(y) means 創建一個二維表,顯示x1,x2每一種組合下y的均值
by x3, sort: tabulate x1 x2, exact 創建一個三維交互表,在x3的每個取值下創建x1(行)和x2(列)的分表,並為每個分表計算費舍精確檢驗,命令by x3, sort為x3排序
table x1 x2, contents(mean y1 median y2) 創建x1(行),x2(列)的二維交互表,單元格包含y1的平均數和y2的中位數
svy: tab y, percent ci 使用調查加權的數據,獲得變數y的一維百分比表以及95%的置信區間。ci計算置信區間,默認為95%。後可添加level(a)設定置信區間a%
與ci相關的一個命令是cii,它可以直接根據概要統計量,來計算正態分布、二項分布或泊松分布的置信區間。它並不需要原始數據。
svy: tab y x, column percent 使用調查加權的數據,獲得一個行變數y對列變數x的二維交互表,並對其狡辯性進行調整的卡方檢驗。單元格中給出了加權的列百分比。
【探測性數據分析】:
stem x1, lines(*) 對變數x1的所有觀測值進行莖葉圖處理lines限定了莖葉表達形式:首位數相同的開頭共*行
lv x2 字元數值表利用序次統計量來分解一個分布。
【正態性檢驗和數據轉換】:
sktest x1 正態性檢驗(偏度與峰度)
ladder x1 這個命令把冪階梯和sktest的正態性檢驗結合在一起。它對階梯上的每一種冪進行嘗試並報告其結果是否顯著地非正態。
gladder x1 該命令將每一種轉換的直方圖與正態曲線加以比較
qladder x1 四分位階梯命令
(可鍵入help ladder查看詳細)
【頻數表和二維交互表】:
tabulate 有許多對創建二維表非常有用的選項,包括:
cell 顯示每個單元格的總百分比
chi2對行變數和列變數獨立的假設進行皮爾遜卡方檢驗
column 顯示每個單元格的列百分比
exact 獨立性假設的費舍精確檢驗
expected 顯示獨立性假定下二維表每個單元格內的期望頻數
generate(new) 創造一組名為new1, new2 等的虛擬變數來代表被列表變數的取值
lrchi2 對獨立性假設的似然比卡方檢驗。如果表格包含任何的空單元格,就得不到結果 missing 把缺失值也作為表的一行或一列
nofreq 不顯示單元格頻數
nolabel 顯示數值而不是添加了標簽的數值變數的取值標簽
row 顯示每個單元格的行百分比
tabi 偶爾我們可能需要在沒有獲得原始數據的情況下對已發表的表格重新進行分析,專門的命令tabi(直接製表)可以完成這項工作
【多表和多維交互表】:
tab1 x1 x2 x3 x4 對所列變數分別創建頻數分布表
tab2 x1 x2 x3 x4 創建所列變數的所有可能的二維交互表
by x1, sort: tabulate x2 x3, nofreq col chi2 三維列聯表,並對x1每一取值水平內x2,x3的獨立性進行卡方檢驗
by x1 x2, sort: tabulate x3 x4, column chi2 四維交互表
table x1, contents(freq) 創建x1的簡單的頻數分布表
table x1 x2, contents(freq) by(x3)創建一個二維頻數表或交互表,並通過x3分組 table 的contents()選項設定表格單元格要包含什麼統計量
contents(freq) 頻數
contents(mean x1) x1的平均數
contents(count x1) x1的非缺失值觀測案例的計數
contents(p1 x1) x1的第1百分位數
【平均數、中位數以及其他概要統計量的列表】:
tabulate 能夠很容易地創建分類變數每一類別的平均數和標准差的列表。比如,如果要列出x1每一類別內x2的平均值,鍵入:tabulate x1, sum(x2)
創建一個平均值的二維表: tabulate x1 x2, sum(x3) means
table不能進行統計檢驗,但它能很好地創建多達七維的包含平均數、標准差、總和等統計量的表格。
table x1, contents(mean x2) x1的一維表格,含有x1每一類別下x2的平均值
table x1 x2, contents(mean x3 median x3)
summarize, tabulate, table 以及其他相關命令都可以和標示重復觀測數目的頻數權數frequency weight 一起使用。
tabulate x1 x2 [fweight=count] (,column nof)
『玖』 stata描述性統計命令是什麼
stata描述性統計命令是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟體。
它擁有很多功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。用Stata繪制的統計圖形相當精美。
Stata具有如下統計分析能力:
數值變數資料的一判悶般分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交旦鏈互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變數變換等。
分類資料的一般分析:參數估計,列聯表分析 ( 列聯系數,確切概率 ) ,流行病學表格分析等。
等級資料的一般分析:秩變換,秩和檢驗,秩相關等。
Stata常用功能:
1、統計功能
Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型掘遲彎等。
2、作圖功能
Stata的作圖模塊,主要提供如下八種基本圖形的製作 : 直方圖(histogram),條形圖(bar),百分條圖 (oneway),百分圓圖(pie),散點圖(two way),散點圖矩陣(matrix),星形圖(star),分位數圖。
這些圖形的巧妙應用,可以滿足絕大多數用戶的統計作圖要求。在有些非繪圖命令中,也提供了專門繪制某種圖形的功能,如在生存分析中,提供了繪制生存曲線圖,回歸分析中提供了殘差圖等。