❶ 如何用python在10分钟内建立一个预测模型
预测模型的分解过程
我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:
你有足够的时间投入并且你是无经验的(这是有影响的)
你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)
在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。
这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:
数据描述性分析——50%的时间
数据预处理(缺失值和异常值修复)——40%的时间
数据建模——4%的时间
性能预测——6%的时间
让我们一步一步完成每个过程(每一步投入预测的时间):
阶段1:描述性分析/数据探索
在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。
这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。
我的第一个模型执行的操作:
确定ID,输入特征和目标特征
确定分类和数值特征
识别缺失值所在列
阶段2:数据预处理(缺失值处理)
有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。
为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。
用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。
填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。
由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。
阶段3:数据建模
根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。
阶段4:性能预测
有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。
本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。
让我们开始付诸行动
首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:
步骤1:导入所需的库,读取测试和训练数据集。
#导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数
import pandas as pd
import numpy as np
fromsklearn.preprocessing import LabelEncoder
import random
fromsklearn.ensemble import RandomForestClassifier
from sklearn.ensembleimport GradientBoostingClassifier
#读取训练、测试数据集
train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')
test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')
#创建训练、测试数据集标志
train='Train'
test='Test'
fullData =pd.concat(,axis=0) #联合训练、测试数据集
步骤2:该框架的第二步并不需要用到python,继续下一步。
步骤3:查看数据集的列名或概要
fullData.columns # 显示所有的列名称
fullData.head(10) #显示数据框的前10条记录
fullData.describe() #你可以使用describe()函数查看数值域的概要
步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。
ID_col =
target_col =
cat_cols =
num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))
other_col= #为训练、测试数据集设置标识符
步骤5:识别缺失值变量并创建标志
fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反
num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量
#为有缺失值的变量创建一个新的变量
# 对缺失值标志为1,否则为0
for var in num_cat_cols:
if fullData.isnull().any()=True:
fullData=fullData.isnull()*1
步骤6:填补缺失值
#用均值填补数值缺失值
fullData = fullData.fillna(fullData.mean(),inplace=True)
#用-9999填补分类变量缺失值
fullData = fullData.fillna(value = -9999)
步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。
#创建分类特征的标签编码器
for var in cat_cols:
number = LabelEncoder()
fullData = number.fit_transform(fullData.astype('str'))
#目标变量也是分类变量,所以也用标签编码器转换
fullData = number.fit_transform(fullData.astype('str'))
train=fullData='Train']
test=fullData='Test']
train = np.random.uniform(0, 1, len(train)) <= .75
Train, Validate = train=True], train=False]
步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。
features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))
x_train = Train.values
y_train = Train.values
x_validate = Validate.values
y_validate = Validate.values
x_test=test.values
random.seed(100)
rf = RandomForestClassifier(n_estimators=1000)
rf.fit(x_train, y_train)
步骤9:检查性能做出预测
status = rf.predict_proba(x_validate)
fpr, tpr, _ = roc_curve(y_validate, status)
roc_auc = auc(fpr, tpr)
print roc_auc
final_status = rf.predict_proba(x_test)
test=final_status
test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)
现在可以提交了!
❷ 用python怎么做出概率分布图啊,新手菜鸟,求高手指点
如果没有编程经验,建议不要看太深入的书籍,先从简单的print 学起,然后写一个简单的函数,函数可以只输出些简单字符串,然后了解一下函数,比如函数的参数形式,以及函数与method的区别。
然后使用一些简单的类型,比如tuple,dict 等,一个一个了解,了解一个,慢慢的练习。如果有哪些不懂,可以网络一下,多网络(谷歌)。
看哪些书都无所谓,刚开始没有什么好坏之分,只要你看得进,看得懂,就看那一本,别纠结于看哪本书。
❸ 学python就业都有哪些方向
就业方向一 web前后端开发(python开发工程师)
熟悉HTML/JavaScript/CSS,掌握React.js等前端框架开发,熟悉页面架构和布局,熟悉MySQL、Redis等,具备数据库应用、设计能力,熟练掌握Django/Flask等Web后端开发框架,熟练掌握网络通讯协议和多线程、多进程并发技术;
了解架构设计、实现原理和安全防护加固,掌握高并发web网站、缓存加速技术,有1-2个完整项目经验。已经具备Python web中高级级开发工程师能力,市面薪资可达12K-25K。
人工智能这个方向不用说了,人工智能是我们未来的国家战略,在新华学员中,相关人工智能就业的同学,薪资一般都超过16000元以上,并且全部进入了大型企业,未来发展可期。
❹ python pandas 怎么生成正态分布的图
高斯分布是从负无穷到正无穷的.能限制住就不是高斯分布了.或者你做个近似的,函数生成的数值如果不在[0,1],就重新随机一次
❺ 怎么用python画数据分布直方图
计算频数:
给定一个序列t:
hist = {}
for x in t:
hist[x] = hist.get(x,0)+1
得到的结果是一个将值映射到其频数的字典。将其除以n即可把频数转换成频率,这称为归一化:
n = float(len(t))
pmf = {}
for x, freq in hist.items():
pmf[x] = freq/n
绘制直方图:
Vals, freqs = hist.Render()
rectangles = pyplot.bar(vals, freqs)
pyplot.show()
绘制概率质量函数:
采用柱状图,可以用pyplot.bar或myplot.Hist。如果Pmf中的值不多,柱状图就比较合适
采用折线图,可以用pyplot.plot或者myplot.Pmf。如果Pmf中的值较多,且比较平滑,折线图就比较合适。
*百分比差异图
直观显示两组数据的分布差异,详见教材。
❻ 怎样用python的matplotlib模块画累积分布图
下面的程序绘制随机变量X的累积分布函数和数组p的累加结果
>>> pl.plot(t, X.cdf(t))
>>> pl.plot(t2, np.add.accumulate(p)*(t2[1]-t2[0]))
❼ 如何将已知数据用python写成正态分布并且画图
importnumpyasnp
importmatplotlib.pyplotasplt
y=[2,5,7,10,16,23,20,16,9,6,6,3,1,1]
x=[59,60,61,62,63,64,65,66,67,68,69,70,71,72]
fig,ax=plt.subplots()
ax.bar(x,y,0.3,alpha=0.5,color='b',label='abc')
plt.axis([55,75,0,25])
ax.set_xlabel('XXX')
ax.set_ylabel('YYY')
ax.set_title('ABC')
ax.legend()
fig.tight_layout()
plt.show()
❽ 如何使用python数据特征分析与可视化
如何评价利用python制作数据采集,计算,可视化界面
1、为什么用Python做数据分析
首先因为Python可以轻松地集成C、C++、Fortran代码,一些底层用C写的算法封装在python包里后性能非常高效。并且Python与Ruby都有大量的Web框架,因此用于网站的建设,另一方面个人觉得因为Python作为解释性语言相对编译型语言更为简单,可以通过简单的脚本处理大量的数据。而组织内部统一使用的语言将大大提高工作效率。
2、为什么用R做数据分析
R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面(主要用在金融分析与趋势预测)无论是经典还是前沿的方法都有相应的包直接使用;相比python在这方面贫乏不少。另外R语言具有强大的可视化功能,一个散点图箱线图可以用一条程序搞定,相比Excel更加简单。
在使用环境方面,SAS在企业、政府及军事机构使用较多,因其权威认证;SPSS、R大多用于科研机构,企业级应用方面已有大量的商业化R软件,同时可结合(具体怎么结合,尚未搞明白)Hadoop进行数据挖掘。
❾ Python怎么画一个圆柱体的温度分布图,求指点求详细代码
defellipse(a,b):
return[[a*math.cos(i*math.pi/180),b*math.sin(i*math.pi/180)]foriinrange(0,360)]
if__name__=="__main__":
l=ellipse(150,80)
turtle.up()
turtle.setpos(150,80)
turtle.down()
for(x,y)inl:
turtle.setpos(x,y)
turtle.setpos(x,y+100)
for(x,y)inl:
turtle.setpos(x,y+100)
turtle.up()
turtle.setpos(-150,90)
turtle.down()
turtle.setpos(x-300,y+100)
turtle.setpos(x-300,y)
turtle.done()
❿ python如何绘制预测模型校准图
python绘制预测模型校准图可以使用校准曲线,因为预测一个模型校准的最简单的方法是通过一个称为“校准曲线”的图(也称为“可靠性图”,reliability diagram)。
这个方法主要是将观察到的结果通过概率划分为几类(bin)。因此,属于同一类的观测值具有相近的概率。
对于每个类,校准曲线将预测这个类的平均值,然后将预测概率的平均值与理论平均值(即观察到的目标变量的平均值)进行比较。
你只需要确定类的数量和以下两者之间的分类策略即可:
1、“uniform”,一个0-1的间隔被分为n_bins个类,它们都具有相同的宽度。
2、“quantile”,类的边缘被定义,从而使得每个类都具有相同数量的观测值。
假设你的模型具有良好的精度,则校准曲线将单调增加。但这并不意味着模型已被正确校准。实际上,只有在校准曲线非常接近等分线时(即下图中的灰色虚线),您的模型才能得到很好的校准,因为这将意味着预测概率基本上接近理论概率。
python绘制预测模型中如何解决校准错误:
假设你已经训练了一个分类器,该分类器会产生准确但未经校准的概率。概率校准的思想是建立第二个模型(称为校准器),校准器模型能够将你训练的分类器“校准”为实际概率。
因此,校准包括了将一个一维矢量(未校准概率)转换为另一个一维矢量(已校准概率)的功能。
两种常被用作校准器的方法:
1、保序回归:一种非参数算法,这种非参数算法将非递减的自由格式行拟合到数据中。行不会减少这一事实是很重要的,因为它遵从原始排序。
2、逻辑回归:现在有三种选择来预测概率:普通随机森林、随机森林 + 保序回归、随机森林 + 逻辑回归。