A. R語言基本數據分析
R語言基本數據分析
本文基於R語言進行基本數據統計分析,包括基本作圖,線性擬合,邏輯回歸,bootstrap采樣和Anova方差分析的實現及應用。
不多說,直接上代碼,代碼中有注釋。
1. 基本作圖(盒圖,qq圖)
#basic plot
boxplot(x)
qqplot(x,y)
2. 線性擬合
#linear regression
n = 10
x1 = rnorm(n)#variable 1
x2 = rnorm(n)#variable 2
y = rnorm(n)*3
mod = lm(y~x1+x2)
model.matrix(mod) #erect the matrix of mod
plot(mod) #plot resial and fitted of the solution, Q-Q plot and cook distance
summary(mod) #get the statistic information of the model
hatvalues(mod) #very important, for abnormal sample detection
3. 邏輯回歸
#logistic regression
x <- c(0, 1, 2, 3, 4, 5)
y <- c(0, 9, 21, 47, 60, 63) # the number of successes
n <- 70 #the number of trails
z <- n - y #the number of failures
b <- cbind(y, z) # column bind
fitx <- glm(b~x,family = binomial) # a particular type of generalized linear model
print(fitx)
plot(x,y,xlim=c(0,5),ylim=c(0,65)) #plot the points (x,y)
beta0 <- fitx$coef[1]
beta1 <- fitx$coef[2]
fn <- function(x) n*exp(beta0+beta1*x)/(1+exp(beta0+beta1*x))
par(new=T)
curve(fn,0,5,ylim=c(0,60)) # plot the logistic regression curve
3. Bootstrap采樣
# bootstrap
# Application: 隨機采樣,獲取最大eigenvalue占所有eigenvalue和之比,並畫圖顯示distribution
dat = matrix(rnorm(100*5),100,5)
no.samples = 200 #sample 200 times
# theta = matrix(rep(0,no.samples*5),no.samples,5)
theta =rep(0,no.samples*5);
for (i in 1:no.samples)
{
j = sample(1:100,100,replace = TRUE)#get 100 samples each time
datrnd = dat[j,]; #select one row each time
lambda = princomp(datrnd)$sdev^2; #get eigenvalues
# theta[i,] = lambda;
theta[i] = lambda[1]/sum(lambda); #plot the ratio of the biggest eigenvalue
}
# hist(theta[1,]) #plot the histogram of the first(biggest) eigenvalue
hist(theta); #plot the percentage distribution of the biggest eigenvalue
sd(theta)#standard deviation of theta
#上面注釋掉的語句,可以全部去掉注釋並將其下一條語句注釋掉,完成畫最大eigenvalue分布的功能
4. ANOVA方差分析
#Application:判斷一個自變數是否有影響 (假設我們喂3種維他命給3頭豬,想看喂維他命有沒有用)
#
y = rnorm(9); #weight gain by pig(Yij, i is the treatment, j is the pig_id), 一般由用戶自行輸入
#y = matrix(c(1,10,1,2,10,2,1,9,1),9,1)
Treatment <- factor(c(1,2,3,1,2,3,1,2,3)) #each {1,2,3} is a group
mod = lm(y~Treatment) #linear regression
print(anova(mod))
#解釋:Df(degree of freedom)
#Sum Sq: deviance (within groups, and resials) 總偏差和
# Mean Sq: variance (within groups, and resials) 平均方差和
# compare the contribution given by Treatment and Resial
#F value: Mean Sq(Treatment)/Mean Sq(Resials)
#Pr(>F): p-value. 根據p-value決定是否接受Hypothesis H0:多個樣本總體均數相等(檢驗水準為0.05)
qqnorm(mod$resial) #plot the resial approximated by mod
#如果qqnorm of resial像一條直線,說明resial符合正態分布,也就是說Treatment帶來的contribution很小,也就是說Treatment無法帶來收益(多喂維他命少喂維他命沒區別)
如下面兩圖分別是
(左)用 y = matrix(c(1,10,1,2,10,2,1,9,1),9,1)和
(右)y = rnorm(9);
的結果。可見如果給定豬吃維他命2後體重特別突出的數據結果後,qq圖種resial不在是一條直線,換句話說resial不再符合正態分布,i.e., 維他命對豬的體重有影響。
B. 《數據科學實戰手冊數據科學實戰手冊(R+Python)》pdf下載在線閱讀,求百度網盤雲資源
《數據科學實戰手冊數據科學實戰手冊(R+Python)》TonyOjeda(托尼·奧傑德)SeanPatrickMurphy(肖恩·派特里克·莫非)BenjaminBengfort(本傑明·班福特)電子書網盤下載免費在線閱讀
鏈接:https://pan..com/s/1EqFNGdBQW46Nj8UdHnVLmA
書名:數據科學實戰手冊
作者名:Tony Ojeda(托尼·奧傑德) / Sean Patrick Murphy(肖恩·派特里克·莫非) / Benjamin Bengfort(本傑明·班福特)
豆瓣評分:6.2
出版社:人民郵電出版社
出版年份:2016-8-1
頁數:326
內容介紹:
這本書是基於R和Python的數據科學項目案例集錦,內容涵蓋了基於數據科學的所有要素,包括數據採集、處理、清洗、分析、建模、可視化以及數據產品的搭建。案例包含了汽車數據分析、股票市場建模、社交網路分析、推薦系統、地理信息分析,以及Python代碼的計算優化。通過手把手的案例解析,令讀者知其然並知其所以然。業界的數據分析師、數據挖掘工程師、數據科學家都可以讀一讀。想要了解實際工作中如何用數據產生價值的在校學生,或者對數據科學感興趣的人也值得一讀。
作者介紹:
Tony Ojeda(托尼·奧傑德),華盛頓DC數據社區的聯合創始人,一位經驗豐富的數據科學家和企業家,他在佛羅里達國際大學獲得金融碩士學位,並且在德保羅大學獲得了MBA學位。 Sean Patrick Murphy(肖恩·派特里克·莫非),華盛頓DC數據社區的聯合創始人,曾在約翰霍普金斯大學的應用物理實驗室做了15年的高級科學家,他專注於機器學習、信號處理、高性能計算以及建模和模擬。現在他是舊金山、紐約和華盛頓DC多家公司的數據顧問。 Benjamin Bengfort(本傑明·班福特),一位非常有經驗的數據科學家和Python開發者。他曾在軍方、業界和學術界工作過8年。他目前在馬里蘭大學派克學院攻讀計算機博士學位,研究元識別和自然語言處理。他擁有北達科塔州立大學的計算機碩士學位,並是喬治城大學的客座教授。
C. 《數據分析實戰》pdf下載在線閱讀全文,求百度網盤雲資源
《數據分析實戰》([ 日] 酒卷隆治里洋平)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:
書名:數據分析實戰
作者:[ 日] 酒卷隆治里洋平
譯者:肖峰
豆瓣評分:7.1
出版社:人民郵電出版社
出版年份:2017-6
頁數:268
內容簡介:
本書由實戰經驗豐富的兩位數據分析師執筆,首先介紹了商業領域里通用的數據分析框架,然後根據該框架,結合8個真實的案例,詳細解說了通過數據分析解決各種商業問題的流程,讓讀者在解決問題的過程中學習各種數據分析方法,包括柱狀圖、交叉列表統計、A/B測試、多元回歸分析、邏輯回歸分析、主成分分析、聚類、決策樹分析、機器學習等。特別是書中使用的數據都是未經清洗的原始數據,能夠讓讀者了解真實的數據分析流程,避免紙上談兵。
作者簡介:
作者簡介:
酒卷隆治
浦和出身。環境學博士畢業。就職於株式會社DRECOM數據分析部門。擅長人類行動日誌的分析。現主要從事社交遊戲和在線服務的日誌分析工作。
里洋平
種子島出身。就職於株式會社DRECOM數據分析部門。擅長使用R語言進行數據分析,現主要從事數據分析環境的搭建和數據分析工作。合著有《數據科學養成讀本》(技術評論社)、《R包使用手冊》(東京圖書)。
譯者簡介:
肖峰
日本東京工業大學計算機工學博士。曾在日本樂天株式會社樂天技術研究所從事研究工作。2013年回國後加入新浪,現任新浪個性化推薦團隊演算法負責人。擁有豐富的數據分析與建模能力。
D. 《多元統計分析及r語言建模王斌會》pdf下載在線閱讀全文,求百度網盤雲資源
《多元統計分析及r語言建模王斌會》網路網盤pdf最新全集下載:
鏈接:https://pan..com/s/1cZO-DK5ohWGhCOw2ZH9Oug
E. R語言數據分析實例一:離職率分析與建模預測
本文分析利用IBM離職員工數據進行分析。在對離職率的影響因素進行觀察的基礎至上,建立模型並預測哪些員工更易離職。
一般而言,數據分析分為三個步驟:數據收集與清洗、探索性分析和建模預測。本文的數據集是IBM用於研究員工預測的 模擬數據 ,數據十分完整,無需清洗。因此,本文主要分為三個部分:
通過對IBM離職員工數據實踐,本文希望發掘出影響員工流失的因素,並對利用R語言進行數據分析過程進行復習,深化對數據分析工作意義的理解。
IBM離職員工數據集共有35個變數,1470個觀測個案。部分需要重點關注的變數如下:
上述變數可以分為三個部分:
載入分析包和數據集
通過描述性統計可以初步觀測到:
分析結果:
基於對數據的探索性分析,員工離職有多方面因素的影響,主要有:
1.工作與生活的不平衡——加班、離家遠和出差等;
2.工作投入如果不能獲得相匹配的回報,員工更傾向離職;
3.優先股認購等福利是員工較為關注的回報形式;
4.年齡、任職過的公司數量的因素也會影響員工離職率;
刪除需要的變數:EmployeeCount, EmployeeNumber, Over18, StandardHours
變數重新編碼:JobRole, EcationFiled
分析結果表明:
隨機森林所得的AUC值為0.5612,小於決策樹模型。
GBM模型得到的AUC值為0.5915
對於對於隨機森林和GBM的方法,AUC值小於單一決策樹模型的AUC值的情況較少見,這顯然說明單一的樹擬合得更好或者更穩定的情況。(一般需要得到AUC值大於0.75的模型)
當結果分類變數之間的比列是1:10或者更高的時候,通常需要考慮優化模型。本例中,離職變數的比列是1:5左右,但仍然可能是合理的,因為在決策樹中看到的主要問題是預測那些實際離開的人(敏感度)。
加權旨在降低少數群體中的錯誤,這里是離職群體。
向上采樣(up-sampling)指從多數類中隨機刪除實例。
向下采樣(down-sampling)指從少數類中復制實例。
分析結果表明:
加權調整的模型表現最好,相比較於單純的隨機森林和GBM模型,AUC值從0.5612上升至0.7803,靈敏度也達到了0.7276。據此,後續將採用加權調整後的模型進行預測。
已經訓練出一個表現較好的模型。將其應用於實踐時,需要注意以下幾個方面:
可以觀察到影響員工流失的前5個因素是:
因此,在實踐中就需要注意:
本例中對工作投入高、收入低的員工進行預測。
本例分析仍有需要足夠完善的地方,還可以往更多更有意義的地方探索:
F. 《R語言實戰(第2版)》pdf下載在線閱讀,求百度網盤雲資源
《R語言實戰(第2版)》([美] Robert I. Kabacoff)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:https://pan..com/s/1LGgzzjw4XSz159P0dCubFA
書名:R語言實戰(第2版)
作者:[美] Robert I. Kabacoff
譯者:王小寧
豆瓣評分:9.1
出版社:人民郵電出版社
出版年份:2016-5
頁數:556
內容簡介:
本書注重實用性,是一本全面而細致的R指南,高度概括了該軟體和它的強大功能,展示了使用的統計示例,且對於難以用傳統方法處理的凌亂、不完整和非正態的數據給出了優雅的處理方法。作者不僅僅探討統計分析,還闡述了大量探索和展示數據的圖形功能。新版做了大量更新和修正,新增了近200頁內容,介紹數據挖掘、預測性分析和高級編程。
作者簡介:
作者簡介:
Robert I. Kabacoff
R語言社區著名學習網站Quick-R的維護者,現為全球化開發與咨詢公司Management研究集團研發副總裁。此前,Kabacoff博士是佛羅里達諾瓦東南大學的教授,講授定量方法和統計編程的研究生課程。Kabacoff還是臨床心理學博士、統計顧問,擅長數據分析,在健康、金融服務、製造業、行為科學、政府和學術界有20餘年的研究和統計咨詢經驗。
譯者簡介:
王小寧
中國人民大學統計學院14級碩士,16級博士,統計之都副主編,中國人民大學數據挖掘中心分布式計算負責人,研究興趣包括統計機器學習和缺失數據。
劉擷芯
中國人民大學統計學院13級碩士,愛荷華大學商學院16級博士,中國人民大學數據挖掘中心核心成員之一,研究興趣包括統計機器學習和文本分析。
黃俊文
2014年畢業於中山大學數學系,2016年畢業於加州大學聖地亞哥分校統計學專業,統計之都成員,易易網創始人之一,目前關注計算機科學和統計學的結合與應用,包括機器學習方法等。他致力於成為一個有趣的人。
G. 《R語言統計分析軟體教程》pdf下載在線閱讀,求百度網盤雲資源
《R語言統計分析軟體教程》(王斌會)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:https://pan..com/s/12y6dec_0PNz6SDSJQgJ1Lg
書名:R語言統計分析軟體教程
作者:王斌會
豆瓣評分:6.8
出版年份:2006
內容簡介:
隨著計算機技術的迅速發展,現代統計方法解決問題能力的深度和廣度都有了很大的拓展。而統計軟體正是我們應用統計方法不可或缺的工具。統計軟體隨著計算機技術和統計技術的發展不斷推陳出新,名目繁多,各具特色,令人有無所適從之感。隨著全球對知識產權保護要求的不斷提高,而開放源代碼逐漸開始形成另一種市場,R語言正是在這個大背景下發展起來的,以S語言環境為基礎的R語言由於其鮮明的特色一出現就受到了統計專業人士的青睞,成為國外大學里相當標準的統計軟體。本書是一本介紹R語言軟體基礎應用的統計教科書,要求讀者有一定的統計知識,並准備應用R語言解決實際問題。本書內容詳實、結構清楚、實例豐富、圖文並茂,並第一次在國內統計教學中引入大量隨機模擬技術。其突出的特點是實用性強,既可作為高校統計學各專業的本科及研究生的教學用書,又可作為研究人員及各類數據分析人員學習的參考書。
H. 《基於R語言數據挖掘的統計與分析》pdf下載在線閱讀全文,求百度網盤雲資源
《基於R語言數據挖掘的統計與分析》網路網盤pdf最新全集下載:
鏈接:https://pan..com/s/1XUAtM1-Fb-igAVYq_nZtlQ
I. 《金融數據分析導論基於與R語言》pdf下載在線閱讀全文,求百度網盤雲資源
《金融數據分析導論基於與R語言》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1dgw3iy9GDNQVm24tErdmzg
J. 《R語言與大數據編程實戰》pdf下載在線閱讀全文,求百度網盤雲資源
《R語言與大數據編程實戰》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1VfVGvlRcVRwfPleEqKLJkQ