❶ python工具包如何安装
python安装工具包的方式总结一下:
1.、在spyder中安装:
打开命令窗口:选择Tools下的“open command prompt”,输入:pip install 安装包名字==版本号
例如:pip install numpy==1.13.3
2、在anaconda中安装:
打开Anaconda Prompt,输入:conda install -c conda-forge 安装包名字==版本号
例如:conda install -c conda-forge numpy=1.13.3
3、在cmd中安装:
在python的安装包下的Scripts目录下,打开命令窗口(也可以直接在文件加下按住Shift,点击鼠标右键,选择“在此处打开 命令窗
口”),输入:pip install 安装包名字==版本号 或者: easy_install 安装包名字==版本号 (pip找不到的包可以试一下)
例如:pip install numpy==1.13.3
4、卸载相应的安装包
将对应命令中的install改成uninstall即可。
推荐学习《Python教程》。
❷ python数据挖掘工具包有什么优缺点
【导读】python数据挖掘工具包就是scikit-learn,scikit-learn是一个基于NumPy, SciPy,
Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法,例如SVM,
逻辑回归,朴素贝叶斯,随机森林,k-means等算法,代码和文档都非常不错,在许多Python项目中都有应用。
优点:
1、文档齐全:官方文档齐全,更新及时。
2、接口易用:针对所有算法提供了一致的接口调用规则,不管是KNN、K-Means还是PCA.
3、算法全面:涵盖主流机器学习任务的算法,包括回归算法、分类算法、聚类分析、数据降维处理等。
缺点:
缺点是scikit-learn不支持分布式计算,不适合用来处理超大型数据。
Pandas是一个强大的时间序列数据处理工具包,Pandas是基于Numpy构建的,比Numpy的使用更简单。最初开发的目的是为了分析财经数据,现在已经广泛应用在Python数据分析领域中。Pandas,最基础的数据结构是Series,用它来表达一行数据,可以理解为一维的数组。另一个关键的数据结构为DataFrame,它表示的是二维数组
Pandas是基于NumPy和Matplotlib开发的,主要用于数据分析和数据可视化,它的数据结构DataFrame和R语言里的data.frame很像,特别是对于时间序列数据有自己的一套分析机制。有一本书《Python
for Data Analysis》,作者是Pandas的主力开发,依次介绍了iPython, NumPy,
Pandas里的相关功能,数据可视化,数据清洗和加工,时间数据处理等,案例包括金融股票数据挖掘等,相当不错。
Mlpy是基于NumPy/SciPy的Python机器学习模块,它是Cython的扩展应用。
关于python数据挖掘工具包的优缺点,就给大家介绍到这里了,scikit-learn提供了一致的调用接口。它基于Numpy和scipy等Python数值计算库,提供了高效的算法实现,所以想要学习python,以上的内容得学会。
❸ Python包管理工具pip的安装和使用
Python有两个着名的包管理工具easy_install.py和pip。在Python2.7的安装包中,easy_install.py是默认安装的,而pip需要我们手动安装。
方法1:利用常用curl获取
>>后面是指定获取的pip脚本的名字,也可以是curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
方法2:利用wget获取,先要安装wget
备注:看网上还有利用easy_install安装pip,但是我尝试了并没有成功
原因是 Python.org sites 终止支持TLS1.0和1.1版本,TLS需要>=1.2
参考: https://stackoverflow.com/questions/49768770/not-able-to-install-python-packages-ssl-tlsv1-alert-protocol-version
主要命令:
所有命令中,最重要的两个命令是install和uninstall。
pip支持四种方式安装python包。
从PyPI安装一个包
安装一个全局区域的包,一般需要sudo权限。在mac系统上,即使是管理员也无法安装,自从OS X El Capitan及以后的版本包含了一套伍竖安全技术(System Integrity Protection简称为SIP)来防止恶意软件修改系统保护区域。具体可参考SIP。因此,我们有时候需要将PyPI包安装到用户区,这个时候,可以用.
pip在升级软件包之前会自动卸载旧的软件包。
可以将所有需要安装的包放入一个requirements.txt文件中,然后可以一次安枝知装。requirements.txt 文件的每一行都要表明安装的内容,而且尽量不要依赖文件中指定包的前后安装顺序。
从git安装
从svn安装
从一个分支安装
还有很多其他的包安装功能,但是上面的已经满足了大部分需求。其他的请参考 文档 。
pip uninstall可以卸载大部分的包,除了一下两种情况
使用方式主要有两种:
卸载单个包
卸载多个包
pip check用来验证已安装的包是否有兼容的依赖性问题。
上面的结果说明matplotlib包有两个依赖包没有安装。
pip search用来腔搭大搜索名字或者摘要中包含搜索关键字的PyPI包。
选项只有一个,就是指定PyPI的url,默认url为 https://pypi.python.org/pypi
例如,search frida
以下两者都可以用,结果同上。
pip list命令会按照字典序排列列举已安装的包,包括可编辑的包。
主要有如下选项:
输出格式:
legacy:将要被废弃
freeze
columns
json
当某些时候debug的时候,需要提供一个完整的python环境,python freeze提供了此功能,它能够输出机器上python环境的快照(所有已安装的包)。
下面是freeze命令的选项:
输出用户区安装的前5个安装包:
pip show可以用来显示每个包的具体信息。show命令只有一个选项 -f,用来显示安装包的文件列表。
$ pip show -f|--files packageName
更多命令请参考 文档
pip默认的index-url是 https://pypi.python.org/pypi/ ,
为了提高速度,我们可以更改pip源为国内的阿里云源。更改方法如下:
创建配置文件
添加阿里源
pip.conf内容如下:
❹ Python 中的可视化工具介绍
几周前,R语言社区经历了一场关于画图工具的讨论。对于我们这种外人来说,具体的细节并不重要,但是我们可以将一些有用的观点运用到 Python 中。讨论的重点是 R 语言自带的绘图工具 base R 和 Hadley Wickham 开发的绘图工具 ggplot2 之间的优劣情况。如果你想了解更多细节内容,请阅读以下几篇文章:
其中最重要的两个内容是:
不是所有人都认同第二个观点,ggplot2确实无法绘制出所有的图表类型,但是我会利用它来做分析。
以下是 2016 年 4 月写的关于绘图工具的概述。出于多方面的原因,绘图工具的选取更多地取决于个人偏好,因此本文介绍的 Python 绘图工具也仅代表我的个人使用偏好。
Matplotlib 是一个强大的工具,它是 Pandas' builtin-plotting 和 Seaborn 的基础。 Matplotlib 能够绘制许多不同的图形,还能调用多个级别的许多 API 。我发现 pyplot api 非常好用,你可能用不上 Transforms 或者 artists ,但是如果你有需求的话可以查阅帮助文档。我将从 pandas 和 seaborn 图开始介绍,然后介绍如何调用 pyplot 的 API 。
DataFrame 和 Series 拥有 .plot 的命名空间,其中有许多图形类别可供选择(line, hist, scatter, 等等)。 Pandas 对象还提供了额外的用于增强图形展现效果的数据,如索引变量。
由于 pandas 具有更少的向后兼容的限制,所以它具有更好的美学特性。从这方面来说,我认为 pandas 中的 DataFrame.plot 是一个非常实用的快速探索性分析的工具。
Michael Waskom 所开发的 Seaborn 提供了一个高层次的界面来绘制更吸引人统计图形。 Seaborn 提供了一个可以快速探索分析数据不同特征的 API 接口,接下来我们将重点介绍它。
Bokeh 是一款针对浏览器开发的可视化工具。
和 matplotlib 一样,**Bokeh
** 拥有一系列 API 接口。比如 glpyhs 接口,该接口和 matplotllib 中的 Artists 接口非常相似,它主要用于绘制环形图、方形图和多边形图等。最近 Bokeh 又开放了一个新的图形接口,该接口主要用于处理词典数据或 DataFrame 数据,并用于绘制罐头图。
以下是一些本文没有提到的可视化工具:
我们将利用 ggplot2 中的 diamonds 数据集,你可以在 Vincent Arelbundock's RDatasets 中找到它(pd.read_csv(' http://vincentarelbundock.github.io/Rdatasets/csv/ggplot2/diamonds.csv') ),此外我们还需要检测是否已经安装 feather 。
[站外图片上传中……(4)]
Bokeh 提供了两个 API,一个是低级的 glyph API,另一个是高级的 Charts API。
[站外图片上传中……(5)]
还不是很清楚我们应该在啥时候利用 Bokeh 来进行探索性分析,不过它的交互式功能可以激发我的兴趣。就个人而言,由于习惯问题我平时仍然一直使用 matplotlib 来绘图,我还无法完全切换到 Bokeh 中。
我非常喜欢 Bokeh 的仪表盘功能和 bokeh server 的 webapps。
[站外图片上传中……(6)]
[站外图片上传中……(7)]
[站外图片上传中……(8)]
matplotlib 并不局限于处理 DataFrame 数据,它支持所有使用 getitem 作为键值的数据类型。
[站外图片上传中……(9)]
[站外图片上传中……(10)]
我们从列变量的名字中提取出轴标签,利用 Pandas 可以更加便捷地绘制一系列共享 x 轴数据的图形。
[站外图片上传中……(11)]
[站外图片上传中……(12)]
本文中的剩余部分将重点介绍 seaborn和为什么我认为它是探索性分析的强大工具。
我强烈建议你阅读 Seaborn 的 introctory notes,这上面介绍了 seaborn 的设计逻辑和应用领域。
我们可以通过一个稳定的且易懂的 API 接口来调用 Seaborn。
事实上,seaborn 是基于 matplotlib 开发的,这意味着如果你熟悉 pyplot API的话,那么你可以很容易地掌握 seaborn。
大多数 seaborn 绘图函数的参数都由 x, y, hue, 和 data 构成(并不是所有的参数都是必须的)。如果你处理的对象是 DataFrame,那么你可以直接将列变量的名称和数据集的名称一同传递到绘图函数中。
[站外图片上传中……(13)]
[站外图片上传中……(14)]
[站外图片上传中……(15)]
[站外图片上传中……(16)]
我们可以很轻易地探究两个变量之间的关系:
[站外图片上传中……(17)]
[站外图片上传中……(18)]
或者一次探究多个变量之间的关系:
[站外图片上传中……(19)]
[站外图片上传中……(20)]
pariplot 是 PairGrid 的一个包装函数,它提供了 seaborn 一个重要的抽象功能——Grid。Seaborn 的 Grid 将 matplotlib 中Figure 和数据集中的变量联系起来了。
我们有两种方式可以和 grids 进行交互操作。其一,seaborn 提供了类似于 pairplot 的包装函数,它提前设置了许多常见任务的参数;其二,如果你需要更多的自定义选项,那么你可以直接利用 Grid 方法。
[站外图片上传中……(21)]
[站外图片上传中……(22)]
[站外图片上传中……(23)]
34312 rows × 7 columns
[站外图片上传中……(24)]
[站外图片上传中……(25)]
FaceGrid 可以通过控制分面变量来生成 Grid图形,其中PairGrid是它的一个特例。接下来的案例中,我们将以数据集中的 cut 变量为分面变量来绘制图像:
[站外图片上传中……(26)]
[站外图片上传中……(27)]
最后一个案例展示了如何将 seaborn 和 matplotlib 结合起来。g.axes是matplotlib.Axes的一个数组,g.fig是matplotlib.Figure的一个特例。这是使用 seaborn 时常见的一个模式:利用 seaborn 的方法来绘制图像,然后再利用 matplotlib 来调整细节部分。
我认为 seaborn 之所以吸引人是因为它的绘图语法具有很强的灵活性。你不会被作者所设定的图表类型所局限住,你可以根据自己的需要创建新的图表。
[站外图片上传中……(28)]
[站外图片上传中……(29)]
[站外图片上传中……(30)]
[站外图片上传中……(31)]
本来,我打算准备更多的例子来介绍 seaborn,但是我会将相关链接分享给大家。Seaborn 的说明文档写的非常详细。
最后,我们将结合 scikit-learn 来介绍如何利用 GridSearch 来寻找最佳参数。
[站外图片上传中……(32)]
[站外图片上传中……(33)]
[站外图片上传中……(34)]
原文链接: http://tomaugspurger.github.io/modern-6-visualization.html
译者:Fibears
❺ python软件开发的案例有哪些,可用于哪些开发
列举一些比较有名的网站或应用。这其中有一些是用python进行开发,有一些在部分业务或功能上使用到了python,还有的是支持python作为扩展脚本语言。数据大部分来自Wikepedia和Quora。
Reddit - 社交分享网站,最早用Lisp开发,在2005年转为python
Dropbox - 文件分享服务
豆瓣网 - 图书、唱片、电影等文化产品的资料数据库网站
Django - 鼓励快速开发的Web应用框架
Fabric - 用于管理成百上千台Linux主机的程序库
EVE - 网络游戏EVE大量使用Python进行开发
Blender - 以C与Python开发的开源3D绘图软件
BitTorrent - bt下载软件客户端
Ubuntu Software Center - Ubuntu 9.10版本后自带的图形化包管理器
YUM - 用于RPM兼容的Linux系统上的包管理器
Civilization IV - 游戏《文明4》
Battlefield 2 - 游戏《战地2》
Google - 谷歌在很多项目中用python作为网络应用的后端,如Google Groups、Gmail、Google Maps等,Google App Engine支持python作为开发语言
NASA - 美国宇航局,从1994年起把python作为主要开发语言
Instrial Light & Magic - 工业光魔,乔治·卢卡斯创立的电影特效公司
Yahoo! Groups - 雅虎推出的群组交流平台
YouTube - 视频分享网站,在某些功能上使用到python
Cinema 4D - 一套整合3D模型、动画与绘图的高级三维绘图软件,以其高速的运算和强大的渲染插件着称
Autodesk Maya - 3D建模软件,支持python作为脚本语言
gedit - Linux平台的文本编辑器
GIMP - Linux平台的图像处理软件
Minecraft: Pi Edition - 游戏《Minecraft》的树莓派版本
MySQL Workbench - 可视化数据库管理工具
Digg - 社交新闻分享网站
Mozilla - 为支持和领导开源的Mozilla项目而设立的一个非营利组织
Quora - 社交问答网站
Path - 私密社交应用
Pinterest - 图片社交分享网站
SlideShare - 幻灯片存储、展示、分享的网站
Yelp - 美国商户点评网站
Slide - 社交游戏/应用开发公司,被谷歌收购
❻ python打包成dist包
使用python内部基础工具包Distutils打包程序:
在打包之前需要做的就是配置好安装脚本,一般为setup.py文件;
示例(setup.py):
from distutils.core import setup
setup(name='Hello',
version='1.0',
description='example',
author='haomiao',
py_moles=['hello'])
该配置文件,只使用了py_moles参数,单一的模块文件名hello.py,当然还有其他的属性、选项可设置;hello.py应与setup.py在同一目录下,分发的时候最好将该目录作为单独的一个目录文件,并将其所依赖的或需要的文件、资源均放在这个目录下或其子目录下,该目录就可以分发给其他开发人员或客户(一般的最终客户不会做这些安装的繁琐事情);
此外,若有其他的资源文件或是其他的多个py文件,则可以增加packages等其他相关的参数指令。
将该目录模块安装到python中;执行:python setup.py install ,此后将会复制相关文件至python安装路径下的Lib/site-packages下,
如上示例将会在该路径下产生:hello.py hello.pyc Hell-1.0-pyx.x.egg-info文件;在使用的时候直接:import hello即可使用。
在上述情况的基础上打包,再使用sdist命令(用于源码发布的形式)
执行:python setup.py sdist ,将产生两个目录build、dist以及MANIFEST列表文件,build下为中间文件可不用,dist下会打包成一个压缩文件,如:Hello-1.0.zip;事实上,该压缩文件内部包含之前的文件以及PKG-INFO的描述文件,这个时候该压缩文件就可以分发给用户;