Ⅰ 如何用python和机器学习炒股赚钱
相信很多人都想过让人工智能来帮你赚钱,但到底该如何做呢?瑞士日内瓦的一位金融数据顾问 Gaëtan Rickter 近日发表文章介绍了他利用 Python 和机器学习来帮助炒股的经验,其最终成果的收益率跑赢了长期处于牛市的标准普尔 500 指数。虽然这篇文章并没有将他的方法完全彻底公开,但已公开的内容或许能给我们带来如何用人工智能炒股的启迪。
我终于跑赢了标准普尔 500 指数 10 个百分点!听起来可能不是很多,但是当我们处理的是大量流动性很高的资本时,对冲基金的利润就相当可观。更激进的做法还能得到更高的回报。
这一切都始于我阅读了 Gur Huberman 的一篇题为《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的论文。该研究描述了一件发生在 1998 年的涉及到一家上市公司 EntreMed(当时股票代码是 ENMD)的事件:
“星期天《纽约时报》上发表的一篇关于癌症治疗新药开发潜力的文章导致 EntreMed 的股价从周五收盘时的 12.063 飙升至 85,在周一收盘时接近 52。在接下来的三周,它的收盘价都在 30 以上。这股投资热情也让其它生物科技股得到了溢价。但是,这个癌症研究方面的可能突破在至少五个月前就已经被 Nature 期刊和各种流行的报纸报道过了,其中甚至包括《泰晤士报》!因此,仅仅是热情的公众关注就能引发股价的持续上涨,即便实际上并没有出现真正的新信息。”
在研究者给出的许多有见地的观察中,其中有一个总结很突出:
“(股价)运动可能会集中于有一些共同之处的股票上,但这些共同之处不一定要是经济基础。”
我就想,能不能基于通常所用的指标之外的其它指标来划分股票。我开始在数据库里面挖掘,几周之后我发现了一个,其包含了一个分数,描述了股票和元素周期表中的元素之间的“已知和隐藏关系”的强度。
我有计算基因组学的背景,这让我想起了基因和它们的细胞信号网络之间的关系是如何地不为人所知。但是,当我们分析数据时,我们又会开始看到我们之前可能无法预测的新关系和相关性。
如果你使用机器学习,就可能在具有已知和隐藏关系的上市公司的寄生、共生和共情关系之上抢占先机,这是很有趣而且可以盈利的。最后,一个人的盈利能力似乎完全关乎他在生成这些类别的数据时想出特征标签(即概念(concept))的强大组合的能力。
我在这类模型上的下一次迭代应该会包含一个用于自动生成特征组合或独特列表的单独算法。也许会基于近乎实时的事件,这可能会影响那些具有只有配备了无监督学习算法的人类才能预测的隐藏关系的股票组。
Ⅱ 在python中快速浏览数据集应该调用那个函数
python sns绘制回归线_python快速浏览整体数袜耐粗据集分布
快速浏览数据集,观察数据分布。便于合理的解释统计分析的结果。还可能为做亚组分析提供思路。
快速浏览数据集可以使用pairplot()。默认情况下,此函数使用散点图和直方图,还可以在非对角线上绘制回归图,在对角线上绘制核密度估计图。
.png
这是在rrt分组下不同数据相互关系的分布情况,图太大,不能完全亩兄展示。
.png
这是整体数据的核密度分布,只是展示了部分结果。
其他几种方法来可视化数据的单变量或双变量分布。
sns.displot(data, x="age", hue="rrt", multiple="stack")
.png
堆砌条形图
.png
密度图
.png
分布概率图
每种方法都有相对的优势和劣势,数据量较大时,可以从不同角度直观观察数据的分布情况,可能会发现异常值。并能够对统计分析的结果可以更合告镇理的解释,或者为做亚组分析提供思
Ⅲ python绘图中有哪四个绘图技巧
pre{overflow-x: auto}技巧1: plt.subplots()
技巧2: plt.subplot()
技巧3: plt.tight_layout()
技巧4: plt.suptitle()
数据集:
让我们导入包并更新图表的默认设置,为图表添加一点个罩斗链人风格。 我们将在提示上使用 Seaborn 的内置数据集:
import seaborn as sns # v0.11.2 import matplotlib.pyplot as plt # v3.4.2 sns.set(style='darkgrid', context='talk', palette='rainbow')df = sns.load\_dataset('tips') df.head()技巧1: plt.subplots()
绘制多个子图的一种简单方法是使用 plt.subplots() 。
这是绘制 2 个并排子图的示例语法:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(10,4)) sns.histplot(data=df, x='tip', ax=ax[0]) sns.boxplot(data=df, x='tip', ax=ax[1]);
在这里,我们销中在一个图中绘制了两个子图。 我们可以进一步自定义每个子图。
例如,我们可以像这样为每个子图添加标题:
fig, ax = plt.subplots(1, 2, figsize=(10,4)) sns.histplot(data=df, x='tip', ax=ax[0]) ax[0].set\_title("Histogram") sns.boxplot(data=df, x='tip', ax=ax[1]) ax[1].set\_title("Boxplot");
在循环中将所有数值变量用同一组图表示:
numerical = df.select\_dtypes('number').columnsfor col in numerical: fig, ax = plt.subplots(1, 2, figsize=(10,4)) sns.histplot(data=df, x=col, ax=ax[0]) sns.boxplot(data=df, x=col, ax=ax[1]); 技巧2: plt.subplot()另一种可视化多个图形的方法是使用 plt.subplot(), 末尾没有 s
语法与之前略有不同:
plt.figure(figsize=(10,4)) ax1 物孙= plt.subplot(1,2,1) sns.histplot(data=df, x='tip', ax=ax1) ax2 = plt.subplot(1,2,2) sns.boxplot(data=df, x='tip', ax=ax2);
当我们想为多个图绘制相同类型的图形并在单个图中查看所有图形,该方法特别有用:
plt.figure(figsize=(14,4)) for i, col in enumerate(numerical): ax = plt.subplot(1, len(numerical), i+1) sns.boxplot(data=df, x=col, ax=ax)
我们同样能定制子图形。例如加个 title
plt.figure(figsize=(14,4)) for i, col in enumerate(numerical): ax = plt.subplot(1, len(numerical), i+1) sns.boxplot(data=df, x=col, ax=ax) ax.set\_title(f"Boxplot of {col}")
通过下面的比较,我们能更好的理解它们的相似处与不同处熟悉这两种方法很有用,因为它们可以在不同情况下派上用场。
技巧3: plt.tight_layout()在绘制多个图形时,经常会看到一些子图的标签在它们的相邻子图上重叠,
如下所示:
categorical = df.select\_dtypes('category').columnsplt.figure(figsize=(8, 8)) for i, col in enumerate(categorical): ax = plt.subplot(2, 2, i+1) sns.countplot(data=df, x=col, ax=ax)
顶部两个图表的 x 轴上的变量名称被剪掉,右侧图的 y 轴标签与左侧子图重叠.使用 plt.tight_layout 很方便
plt.figure(figsize=(8, 8)) for i, col in enumerate(categorical): ax = plt.subplot(2, 2, i+1) sns.countplot(data=df, x=col, ax=ax) plt.tight\_layout()
专业 看起来更好了。
技巧4: plt.suptitle()真个图形添加标题:
plt.figure(figsize=(8, 8)) for i, col in enumerate(categorical): ax = plt.subplot(2, 2, i+1) sns.countplot(data=df, x=col, ax=ax) plt.suptitle('Category counts for all categorical variables') plt.tight\_layout()此外,您可以根据自己的喜好自定义各个图。 例如,您仍然可以为每个子图添加标题。
到此这篇关于python绘图 四个绘图技巧的文章就介绍到这了,希望大家以后多多支持!
Ⅳ 相关性分析 相关系数多少有意义
在数据分析的问题中, 经常会遇见的一种问题就是 相关的问题。
比如:抖音短视频的产品经理经常要来问留存(是否留下来)和观看时长, 收藏的次数, 转发的次数, 关注的抖音博主数等等是否有相关性, 相关性有多大。
因为 只有知道了哪些因素和留存比较相关, 才知道怎么去优化从产品的方向去提升留存率 。
比如:如果留存和收藏的相关性比较大 那么我们就要引导用户去收藏视频, 从而提升相关的指标,
除了留存的相关性计算的问题, 还有类似的需要去计算相关性的问题。
比如淘宝的用户,他们的付费行为和哪些行为相关, 相关性有多大, 这样我们就可以挖掘出用户付费的关键行为。
这种问题就是相关性量化, 我们要找到一种科学的方法去计算这些因素和留存的相关性的大小。
这种方法就是相关性分析。
01
什么是相关性分析
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析(官方定义)
简单来说, 相关性的方法主要用来分析两个东西他们之间的相关性大小。
相关性大小用相关系数r来描述,关于r的解读:(从知乎摘录)
(1) 正相关: 如果x,y变化的方向一致,如身高与体重的关系,r>0;一般:
|r|>0.95 存在显着性相关;
|r|≥0.8 高度相关;
0.5≤|r|<0.8 中度相关;
0.3≤|r|<0.5 低度相关;
|r|<0.3 关系极弱,认为不相关
(2) 负相关 :如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
(3) 无线性相关: r=0, 这里注意, r=0 不代表他们之间没有关系, 可能只是不存在线性关系。顷芦
下面用几个图来描述一下,不同的相关性的情况:
第一张图r=-0.92 <0 是说明横轴和纵轴的数据呈现负相关,意思就是随着横轴的数据值越来越大纵轴的数据的值呈现下降的趋势, 从r的绝对值为0.92>0.8 来看, 说明两组数据的相关性高度相关。
同样的, 第二张图 r=0.88 >0 说明纵轴和横轴的数据呈现正向的关系, 随着横轴数据的值销乎罩越来越大, 纵轴的值也随之变大, 并且两组数据也是呈现高度相关。
02
如何实现相关性分析
前面已经讲了什么是相关性分析方法, 那么我们怎么去实现这种分析方法呢 , 以下先用python 实现 :
1. 首先是导入数据集, 这里以tips 为例
import numpy asnpimport pandas aspdimport matplotlib.pyplot aspltimport seaborn assns%matplotlib inline## 定义主题风格sns. set(style= "darkgrid")## 加载tipstips = sns.load_dataset( "tips")
2. 查看导入的数据集情况
字段分别代表:
total_bill: 总账单数
tip: 消费数目
sex: 性别
smoker: 是否是吸烟的群众
day: 天气
time: 晚餐 dinner, 午餐lunch
size: 顾客数
tips.head # 查看数据的前几行
3. 最简单的相关性计算
tips.corr
4. 任意看两个数据之间相关性可视化,比如看 total_bill 和 tip 之间的相关性,就可以如下操作进行可视化
从散点图可以看出账单的 数目和消费的数目基本是呈正相关 , 账单的总的数目越高, 给得消费也会越多。
5. 如果要看全部任意两两数据的相关性的亏闹可视化:
sns.pairplot(tips)
6. 如果要分不同的人群, 吸烟和非吸烟看总的账单数目total_bill和小费tip 的关系。
sns.relplot(x= "total_bill", y= "tip", hue= "smoker", data=tips)# 利用 hue进行区分 plt.show
7. 区分抽烟和非抽烟群体看所有数据之间的相关性,我们可以看到:
对于男性和女性群体, 在小费和总账单金额的关系上, 可以同样都是账单金额越高的时候, 小费越高的例子上, 男性要比女性给得小费更大方。
在顾客数量和小费的数目关系上, 我们可以发现, 同样的顾客数量, 男性要比女性给得小费更多。
在顾客数量和总账单数目关系上, 也是同样的顾客数量, 男性要比女性消费更多。
sns.pairplot(tips ,hue = 'sex')
03
实战案例
问题:
影响B 站留存的相关的关键行为有哪些?
这些行为和留存哪一个相关性是最大的?
分析思路:
首先规划好完整的思路, 哪些行为和留存相关, 然后利用这些行为+时间维度 组成指标, 因为不同的时间跨度组合出来的指标, 意义是不一样的, 比如登录行为就有 7天登录天数, 30天登录天数
第二步计算这些行为和留存的相关性, 我们用1 表示会留存 0 表示不会留存
那么就得到 用户id + 行为数据+ 是否留存 这几个指标组成的数据
然后就是相关性大小的计算
import matplotlib.pyplot aspltimport seaborn assnsretain2 = pd.read_csv( "d:/My Documents/Desktop/train2.csv") # 读取数据retain2 = retain2. drop(columns=[ 'click_share_ayyuid_ucnt_days7']) # 去掉不参与计算相关性的列plt.figure(figsize=( 16, 10), dpi= 80)# 相关性大小计算sns.heatmap(retain2.corr, xticklabels=retain2.corr.columns, yticklabels=retain2.corr.columns, cmap= 'RdYlGn', center= 0, annot=True)# 可视化plt.title( 'Correlogram of retain', fontsize= 22)plt.xticks(fontsize= 12)plt.yticks(fontsize= 12)plt.show
图中的数字值就是代表相关性大小 r 值,所以从图中我们可以发现:
留存相关最大的四大因素:
Ⅳ 针对绘图方面的需求,matlab,python和R哪个更加强大
数据可视化绘制相关性散点图
对比数据相关性是数据探索常用的一种方法,下面是Python和R的对比。
Pythonimport seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(nba[["ast", "fg", "trb"]])
plt.show()
Rlibrary(GGally)
ggpairs(nba[,c("ast", "fg", "trb")])
虽然我们最终得到了类似的图形,这里R中GGally是依赖于ggplot2,而Python则是在matplotlib的基础上结合Seaborn,除了GGally在R中我们还有很多其他的类似方法来实现对比制图,显然R中的绘图有更完善的生态系统。
绘制聚类效果图
这里以K-means为例,为了方便聚类,我们将非数值型或者有确实数据的列排除在外。
Rlibrary(cluster)
set.seed(1)
isGoodCol <- function(col){
sum(is.na(col)) == 0 && is.numeric(col)
}
goodCols <- sapply(nba, isGoodCol)
clusters <- kmeans(nba[,goodCols], centers=5)
labels <- clusters$cluster
nba2d <- prcomp(nba[,goodCols], center=TRUE)
twoColumns <- nba2d$x[,1:2]
clusplot(twoColumns, labels)
Pythonfrom sklearn.cluster import KMeans
kmeans_model = KMeans(n_clusters=5, random_state=1)
good_columns = nba._get_numeric_data().dropna(axis=1)
kmeans_model.fit(good_columns)
labels = kmeans_model.labels_
from sklearn.decomposition import PCA
pca_2 = PCA(2)
plot_columns = pca_2.fit_transform(good_columns)
plt.scatter(x=plot_columns[:,0], y=plot_columns[:,1], c=labels)
plt.show()
结论
Python 的 pandas 从 R 中偷师 dataframes,R 中的 rvest 则借鉴了 Python 的 BeautifulSoup,我们可以看出两种语言在一定程度上存在的互补性,通常,我们认为 Python 比 R 在泛型编程上更有优势,而 R 在数据探索、统计分析是一种更高效的独立数据分析工具。
Ⅵ python sns.pointplot如何添加文本信息
C语言有__LINE__来表示源代码的当前行号,经常在记录日志时使用。Python如何获取源代码的当前行号?
The C Language has the __LINE__ macro, which is wildly used in logging, presenting the current line of the source file. And how to get the current line of a Python source file?
exception输出的函数调用栈就是个典型的应用:
A typical example is the output of function call stack when an exception:
python代码
File "D:\workspace\Python\src\lang\lineno.py", line 19, in <mole>
afunc()
File "D:\workspace\Python\src\lang\lineno.py", line 15, in afunc
errmsg = 1/0
ZeroDivisionError: integer division or molo by zero
那么我们就从错误栈的输出入手,traceback模块中:
Now that, Let's begin with the output of an exception call stack, in the traceback mole:
python代码
def print_stack(f=None, limit=None, file=None):
"""Print a stack trace from its invocation point.
The optional 'f' argument can be used to specify an alternate
stack frame at which to start. The optional 'limit' and 'file'
arguments have the same meaning as for print_exception().
"""
if f is None:
try:
raise ZeroDivisionError
except ZeroDivisionError:
f = sys.exc_info()[2].tb_frame.f_back
print_list(extract_stack(f, limit), file)
def print_list(extracted_list, file=None):
"""Print the list of tuples as returned by extract_tb() or
extract_stack() as a formatted stack trace to the given file."""
if file is None:
file = sys.stderr
for filename, lineno, name, line in extracted_list:
_print(file,
' File "%s", line %d, in %s' % (filename,lineno,name))
if line:
_print(file, ' %s' % line.strip())
traceback模块构造一个ZeroDivisionError,并通过sys模块的exc_info()来获取运行时上下文。我们看到,所有的秘密都在tb_frame中,这是函数调用栈中的一个帧。
traceback constructs an ZeroDivisionError, and then call the exc_info() of the sys mole to get runtime context. There, all the secrets hide in the tb_frame, this is a frame of the function call stack.
对,就是这么简单!只要我们能找到调用栈frame对象即可获取到行号!因此,我们可以用同样的方法来达到目的,我们自定义一个lineno函数:
Yes, It's so easy! If only a frame object we get, we can get the line number! So we can have a similar implemetation to get what we want, defining a function named lineno:
python代码
import sys
def lineno():
frame = None
try:
raise ZeroDivisionError
except ZeroDivisionError:
frame = sys.exc_info()[2].tb_frame.f_back
return frame.f_lineno
def afunc():
# if error
print "I have a problem! And here is at Line: %s"%lineno()
是否有更方便的方法获取到frame对象?当然有!
Is there any other way, perhaps more convinient, to get a frame object? Of course YES!
python代码
def afunc():
# if error
print "I have a proble! And here is at Line: %s"%sys._getframe().f_lineno
类似地,通过frame对象,我们还可以获取到当前文件、当前函数等信息,就像C语音的__FILE__与__FUNCTION__一样。其实现方式,留给你们自己去发现。
Thanks to the frame object, similarly, we can also get current file and current function name, just like the __FILE__ and __FUNCTION__ macros in C. Debug the frame object, you will get the solutions.
Ⅶ python中sns怎么定义
趋势被定义为一种变化模式。
sns.lineplot-折线图最适合显示一段时间备中内的趋势,多条线可用于冲宏显示多仿判山个组中的趋势。
Ⅷ Python 中的可视化工具介绍
几周前,R语言社区经历了一场关于画图工具的讨论。对于我们这种外人来说,具体的细节并不重要,但是我们可以将一些有用的观点运用到 Python 中。讨论的重点是 R 语言自带的绘图工具 base R 和 Hadley Wickham 开发的绘图工具 ggplot2 之间的优劣情况。如果你想了解更多细节内容,请阅读以下几篇文章:
其中最重要的两个内容是:
不是所有人都认同第二个观点,ggplot2确实无法绘制出所有的图表类型,但是我会利用它来做分析。
以下是 2016 年 4 月写的关于绘图工具的概述。出于多方面的原因,绘图工具的选取更多地取决于个人偏好,因此本文介绍的 Python 绘图工具也仅代表我的个人使用偏好。
Matplotlib 是一个强大的工具,它是 Pandas' builtin-plotting 和 Seaborn 的基础。 Matplotlib 能够绘制许多不同的图形,还能调用多个级别的许多 API 。我发现 pyplot api 非常好用,你可能用不上 Transforms 或者 artists ,但是如果你有需求的话可以查阅帮助文档。我将从 pandas 和 seaborn 图开始介绍,然后介绍如何调用 pyplot 的 API 。
DataFrame 和 Series 拥有 .plot 的命名空间,其中有许多图形类别可供选择(line, hist, scatter, 等等)。 Pandas 对象还提供了额外的用于增强图形展现效果的数据,如索引变量。
由于 pandas 具有更少的向后兼容的限制,所以它具有更好的美学特性。从这方面来说,我认为 pandas 中的 DataFrame.plot 是一个非常实用的快速探索性分析的工具。
Michael Waskom 所开发的 Seaborn 提供了一个高层次的界面来绘制更吸引人统计图形。 Seaborn 提供了一个可以快速探索分析数据不同特征的 API 接口,接下来我们将重点介绍它。
Bokeh 是一款针对浏览器开发的可视化工具。
和 matplotlib 一样,**Bokeh
** 拥有一系列 API 接口。比如 glpyhs 接口,该接口和 matplotllib 中的 Artists 接口非常相似,它主要用于绘制环形图、方形图和多边形图等。最近 Bokeh 又开放了一个新的图形接口,该接口主要用于处理词典数据或 DataFrame 数据,并用于绘制罐头图。
以下是一些本文没有提到的可视化工具:
我们将利用 ggplot2 中的 diamonds 数据集,你可以在 Vincent Arelbundock's RDatasets 中找到它(pd.read_csv(' http://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/diamonds.csv') ),此外我们还需要检测是否已经安装 feather 。
[站外图片上传中……(4)]
Bokeh 提供了两个 API,一个是低级的 glyph API,另一个是高级的 Charts API。
[站外图片上传中……(5)]
还不是很清楚我们应该在啥时候利用 Bokeh 来进行探索性分析,不过它的交互式功能可以激发我的兴趣。就个人而言,由于习惯问题我平时仍然一直使用 matplotlib 来绘图,我还无法完全切换到 Bokeh 中。
我非常喜欢 Bokeh 的仪表盘功能和 bokeh server 的 webapps。
[站外图片上传中……(6)]
[站外图片上传中……(7)]
[站外图片上传中……(8)]
matplotlib 并不局限于处理 DataFrame 数据,它支持所有使用 getitem 作为键值的数据类型。
[站外图片上传中……(9)]
[站外图片上传中……(10)]
我们从列变量的名字中提取出轴标签,利用 Pandas 可以更加便捷地绘制一系列共享 x 轴数据的图形。
[站外图片上传中……(11)]
[站外图片上传中……(12)]
本文中的剩余部分将重点介绍 seaborn和为什么我认为它是探索性分析的强大工具。
我强烈建议你阅读 Seaborn 的 introctory notes,这上面介绍了 seaborn 的设计逻辑和应用领域。
我们可以通过一个稳定的且易懂的 API 接口来调用 Seaborn。
事实上,seaborn 是基于 matplotlib 开发的,这意味着如果你熟悉 pyplot API的话,那么你可以很容易地掌握 seaborn。
大多数 seaborn 绘图函数的参数都由 x, y, hue, 和 data 构成(并不是所有的参数都是必须的)。如果你处理的对象是 DataFrame,那么你可以直接将列变量的名称和数据集的名称一同传递到绘图函数中。
[站外图片上传中……(13)]
[站外图片上传中……(14)]
[站外图片上传中……(15)]
[站外图片上传中……(16)]
我们可以很轻易地探究两个变量之间的关系:
[站外图片上传中……(17)]
[站外图片上传中……(18)]
或者一次探究多个变量之间的关系:
[站外图片上传中……(19)]
[站外图片上传中……(20)]
pariplot 是 PairGrid 的一个包装函数,它提供了 seaborn 一个重要的抽象功能——Grid。Seaborn 的 Grid 将 matplotlib 中Figure 和数据集中的变量联系起来了。
我们有两种方式可以和 grids 进行交互操作。其一,seaborn 提供了类似于 pairplot 的包装函数,它提前设置了许多常见任务的参数;其二,如果你需要更多的自定义选项,那么你可以直接利用 Grid 方法。
[站外图片上传中……(21)]
[站外图片上传中……(22)]
[站外图片上传中……(23)]
34312 rows × 7 columns
[站外图片上传中……(24)]
[站外图片上传中……(25)]
FaceGrid 可以通过控制分面变量来生成 Grid图形,其中PairGrid是它的一个特例。接下来的案例中,我们将以数据集中的 cut 变量为分面变量来绘制图像:
[站外图片上传中……(26)]
[站外图片上传中……(27)]
最后一个案例展示了如何将 seaborn 和 matplotlib 结合起来。g.axes是matplotlib.Axes的一个数组,g.fig是matplotlib.Figure的一个特例。这是使用 seaborn 时常见的一个模式:利用 seaborn 的方法来绘制图像,然后再利用 matplotlib 来调整细节部分。
我认为 seaborn 之所以吸引人是因为它的绘图语法具有很强的灵活性。你不会被作者所设定的图表类型所局限住,你可以根据自己的需要创建新的图表。
[站外图片上传中……(28)]
[站外图片上传中……(29)]
[站外图片上传中……(30)]
[站外图片上传中……(31)]
本来,我打算准备更多的例子来介绍 seaborn,但是我会将相关链接分享给大家。Seaborn 的说明文档写的非常详细。
最后,我们将结合 scikit-learn 来介绍如何利用 GridSearch 来寻找最佳参数。
[站外图片上传中……(32)]
[站外图片上传中……(33)]
[站外图片上传中……(34)]
原文链接: http://tomaugspurger.github.io/modern-6-visualization.html
译者:Fibears
Ⅸ python多元线性回归怎么计算
1、什么是多元线性回归模型?
当y值的影响因素不唯一时,采用多元线性回归模型。
y =y=β0+β1x1+β2x2+...+βnxn
例如商品的销售额可能不电视广告投入,收音机广告投入,报纸广告投入有关系,可以有 sales =β0+β1*TV+β2* radio+β3*newspaper.
2、使用pandas来读取数据
pandas 是一个用于数据探索、数据分析和数据处理的python库
[python]view plain
importpandasaspd
[html]view plain
<prename="code"class="python">#
data=pd.read_csv('/home/lulei/Advertising.csv')
#displaythefirst5rows
data.head()
上面代码的运行结果:
上面显示的结果类似一个电子表格,这个结构称为Pandas的数据帧(data frame),类型全称:pandas.core.frame.DataFrame.
pandas的两个主要数据结构:Series和DataFrame:
Series类似于一维数组,它有一组数据以及一组与之相关的数据标签(即索引)组成。
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典。
[python]view plain
#displaythelast5rows
data.tail()
[html]view plain
#checktheshapeoftheDataFrame(rows,colums)
data.shape
(200,4)
3、分析数据
特征:
TV:对于一个给定市场中单一产品,用于电视上的广告费用(以千为单位)
Radio:在广播媒体上投资的广告费用
Newspaper:用于报纸媒体的广告费用
响应:
Sales:对应产品的销量
在这个案例中,我们通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有200个观测值,每一组观测对应一个市场的情况。
注意:这里推荐使用的是seaborn包。网上说这个包的数据可视化效果比较橡哗好看。其实seaborn也应该属于matplotlib的内部包。只是需要再次的单独安装。
[python]view plain
importseabornassns
importmatplotlib.pyplotasplt
#ots
sns.pairplot(data,x_vars=['TV','Radio','Newspaper'],y_vars='Sales',size=7,aspect=0.8)
plt.show()#注意必须加上这一句,祥橡否则无法显示梁宴行。
[html]view plain
这里选择TV、Radio、Newspaper作为特征,Sales作为观测值
[html]view plain
返回的结果:
[python]view plain
sns.pairplot(data,x_vars=['TV','Radio','Newspaper'],y_vars='Sales',size=7,aspect=0.8,kind='reg')
plt.show()
直到这里整个的一次多元线性回归的预测就结束了。
6、改进特征的选择
在之前展示的数据中,我们看到Newspaper和销量之间的线性关系竟是负关系(不用惊讶,这是随机特征抽样的结果。换一批抽样的数据就可能为正了),现在我们移除这个特征,看看线性回归预测的结果的RMSE如何?
依然使用我上面的代码,但只需修改下面代码中的一句即可:
[python]view plain
#
feature_cols=['TV','Radio','Newspaper']
#
X=data[feature_cols]
#
#X=data[['TV','Radio','Newspaper']]#只需修改这里即可<prename="code"class="python"style="font-size:15px;line-height:35px;">X=data[['TV','Radio']]#去掉newspaper其他的代码不变
最后的到的系数与测度如下:
LinearRegression(_X=True, fit_intercept=True, normalize=False)
备注:
注:上面的结果是由train_test_spilit()得到的,但是我不知道为什么我的版本的sklearn包中居然报错:
处理方法:1、我后来重新安装sklearn包。再一次调用时就没有错误了。
2、自己写函数来认为的随机构造训练集和测试集。(这个代码我会在最后附上。)
[python]view plain
importrandom
[python]view plain
<spanstyle="font-family:microsoftyahei;">######自己写一个随机分配数的函数,分成两份,并将数值一次存储在对应的list中##########
deftrain_test_split(ylabel,random_state=1):
importrandom
index=random.sample(range(len(ylabel)),50*random_state)
list_train=[]
list_test=[]
i=0
forsinrange(len(ylabel)):
ifiinindex:
list_test.append(i)
else:
list_train.append(i)
i+=1
returnlist_train,list_test
###############对特征进行分割#############################
feature_cols=['TV','Radio','Newspaper']
X1=data[feature_cols]
Ⅹ 10.2 sns 绘图
seaborn 常用 基于matplotlib, 解决分组问题。【横轴,纵轴,数据集】
往往画的聚合指标图像
barplot() 条形图
scatterplot() 散点图
swarmplot()
sns.violinplot() 琴图
sns.countplot() 统计条形图
sns.pairplot() 成对图卜耐搜像
sns.heatmap() 热力图 用颜色深浅表达大小
sns.boxplot() 箱线图
sns.displot()直方图
数据: tips = sns.load_dataset('tips')
tips.groupby('sex')['total_bill'].mean()
sns.boxplot(x='sex',y='total_bill',data=tips) 横轴,纵轴,数据。
sns.distplot(tips.total_bill)
连续 VS 连续
离散 VS 连续
sns的hue参数:分组因子 hue_order:分组的顺序
例:股票随着时间的变化
人随着每次考试的分数的变化
比较大小
例:在某一时期内两个同学的成绩谁高谁低。(通过高矮或宽窄表示大小)
组与组数据比较大小
算出来的,均值加减标准差得到置信区间。亩棚
两个维度表达对应关系(映射关系,函数关系)
例:经纬度
所有样本点自变量和因变型历量的关系
增加1个维度,气泡的大小,成为气泡图。
描述数据分布。(可看数据异常)
例:看一组数据是否符合正态分布
原理:数据按大小划分几个区域,在哪个区域加1。 分高度和宽度:宽度:数据区域,高度:落在区域里数据个数。(转换成概率称为kde图像)
IQR = Q3- Q1
upper = Q3 + 1.5IQR
bottom = Q1 + 1.5*IQR
sns.boxplot()
描述两组数据关系
注:卡方验证主要是离散数据和离散数据之间的关系
corr()关系函数,默认person系数。
矩阵的值对应两个值的关系。
极浅的点和及深的点需要注意。