数据科学入门pdf_《数据分析实战》pdf下载在线阅读全文求百度网盘云资源

‘壹’ 《数据科学入门》pdf下载在线阅读全文，求百度网盘云资源

《数据科学入门》网络网盘pdf最新全集下载:
链接：https://pan..com/s/1s-MFDcy02kyK-MZLiZhQIA

?pwd=yhk9 提取码：yhk9
简介：作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具和实现算法，并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

通过阅读本书，你可以：

学到一堂Python速成课；

学习线性代数、统计和概率论的基本方法，了解它们是怎样应用在数据科学中的；掌握如何收集、探索、清理、转换和操作数据；深入理解机器学习的基础；

运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型；探索推荐系统、自然语言处理、网络分析、MapRece和数据库。

‘贰’ 《数据科学入门》pdf下载在线阅读，求百度网盘云资源

《数据科学入门》（[美] Joel Grus）电子书网盘下载免费在线阅读

资源链接：

链接：https://pan..com/s/13UnWxb2ecRvrgdSqFpXI5A

密码：rpfq

书名：数据科学入门

作者：[美] Joel Grus

译者：高蓉

豆瓣评分：7.0

出版社：人民邮电出版社

出版年份：2016-3

页数：304

内容简介：

数据科学是一个蓬勃发展、前途无限的行业，有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作，教授数据科学工作所必需的黑客技能，并带领读者熟悉数据科学的核心知识——数学和统计学。

作者选择了功能强大、简单易学的Python语言环境，亲手搭建工具和实现算法，并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。

通过阅读本书，你可以：

学到一堂Python速成课；

学习线性代数、统计和概率论的基本方法，了解它们是怎样应用在数据科学中的；

掌握如何收集、探索、清理、转换和操作数据；

深入理解机器学习的基础；

运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型；

探索推荐系统、自然语言处理、网络分析、MapRece和数据库。

作者简介：

Joel Grus

是Google的一位软件工程师，曾于数家创业公司担任数据科学家。目前住在西雅图，专注于数据科学工作并乐此不疲。偶尔在joelgrus.com发表博客，长期活跃于Twitter @joelgrus。

‘叁’ 《数据科学实战手册数据科学实战手册（R+Python）》pdf下载在线阅读，求百度网盘云资源

《数据科学实战手册数据科学实战手册（R+Python）》TonyOjeda(托尼·奥杰德)SeanPatrickMurphy(肖恩·派特里克·莫非)BenjaminBengfort(本杰明·班福特)电子书网盘下载免费在线阅读

链接：https://pan..com/s/1EqFNGdBQW46Nj8UdHnVLmA

提取码：bb2u

书名：数据科学实战手册
作者名：Tony Ojeda(托尼·奥杰德) / Sean Patrick Murphy(肖恩·派特里克·莫非) / Benjamin Bengfort(本杰明·班福特)
豆瓣评分：6.2
出版社：人民邮电出版社
出版年份：2016-8-1
页数：326
内容介绍：
这本书是基于R和Python的数据科学项目案例集锦，内容涵盖了基于数据科学的所有要素，包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析，以及Python代码的计算优化。通过手把手的案例解析，令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生，或者对数据科学感兴趣的人也值得一读。
作者介绍：
Tony Ojeda(托尼·奥杰德)，华盛顿DC数据社区的联合创始人，一位经验丰富的数据科学家和企业家，他在佛罗里达国际大学获得金融硕士学位，并且在德保罗大学获得了MBA学位。 Sean Patrick Murphy(肖恩·派特里克·莫非)，华盛顿DC数据社区的联合创始人，曾在约翰霍普金斯大学的应用物理实验室做了15年的高级科学家，他专注于机器学习、信号处理、高性能计算以及建模和模拟。现在他是旧金山、纽约和华盛顿DC多家公司的数据顾问。 Benjamin Bengfort(本杰明·班福特)，一位非常有经验的数据科学家和Python开发者。他曾在军方、业界和学术界工作过8年。他目前在马里兰大学派克学院攻读计算机博士学位，研究元识别和自然语言处理。他拥有北达科塔州立大学的计算机硕士学位，并是乔治城大学的客座教授。

‘肆’ 《精通数据科学：从线性回归到深度学习》pdf下载在线阅读，求百度网盘云资源

《精通数据科学：从线性回归到深度学习》（唐亘）电子书网盘下载免费在线阅读

资源链接：

链接：https://pan..com/s/1usN9z4IAW5fTY_ajAh1n4A

提取码：ymft

书名：精通数据科学：从线性回归到深度学习

作者：唐亘

豆瓣评分：7.2

出版社：人民邮电出版社

出版年份：2018-5-8

页数：432

内容简介：

数据科学是一门内涵很广的学科，它涉及到统计分析、机器学习以及计算机科学三方面的知识和技能。本书深入浅出、全面系统地介绍了这门学科的内容。

本书分为13章，最初的3章主要介绍数据科学想要解决的问题、常用的IT工具Python以及这门学科所涉及的数学基础。第4-7章主要讨论数据模型，主要包含三方面的内容：一是统计中最经典的线性回归和逻辑回归模型；二是计算机估算模型参数的随机梯度下降法，这是模型工程实现的基础；三是来自计量经济学的启示，主要涉及特征提取的方法以及模型的稳定性。接下来的8-10章主要讨论算法模型，也就是机器学习领域比较经典的模型。这三章依次讨论了监督式学习、生成式模型以及非监督式学习。目前数据科学最前沿的两个领域分别是大数据和人工智能。本书的第11章将介绍大数据中很重要的分布式机器学习，而本书的最后两章将讨论人工智能领域的神经网络和深度学习。

本书通俗易懂，而且理论和实践相结合，可作为数据科学家和数据工程师的学习用书，也适合对数学科学有强烈兴趣的初学者使用。同时也可作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。

作者简介：

唐亘，数据科学家，专注于机器学习和大数据，热爱并积极参与Apache Spark、scikit-learn等开源项目。作为讲师和技术顾问，为多家机构（包括惠普、华为、复旦大学等）提供百余场技术培训。

此前的工作和研究集中于经济和量化金融，曾参与经济合作与发展组织（OECD）的研究项目并发表论文，并担任英国知名在线出版社Packt的技术审稿人。

曾获得复旦大学的数学和计算机双学士学位；巴黎综合理工的金融硕士学位；法国国立统计与经济管理学校的数据科学硕士学位。

‘伍’ 《数据分析实战》pdf下载在线阅读全文，求百度网盘云资源

《数据分析实战》（［日］酒卷隆治里洋平）电子书网盘下载免费在线阅读

资源链接：

链接:

提取码: vkkn

书名：数据分析实战

作者：［日］酒卷隆治里洋平

译者：肖峰

豆瓣评分：7.1

出版社：人民邮电出版社

出版年份：2017-6

页数：268

内容简介：

本书由实战经验丰富的两位数据分析师执笔，首先介绍了商业领域里通用的数据分析框架，然后根据该框架，结合8个真实的案例，详细解说了通过数据分析解决各种商业问题的流程，让读者在解决问题的过程中学习各种数据分析方法，包括柱状图、交叉列表统计、A/B测试、多元回归分析、逻辑回归分析、主成分分析、聚类、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据，能够让读者了解真实的数据分析流程，避免纸上谈兵。

作者简介：

酒卷隆治

浦和出身。环境学博士毕业。就职于株式会社DRECOM数据分析部门。擅长人类行动日志的分析。现主要从事社交游戏和在线服务的日志分析工作。

里洋平

种子岛出身。就职于株式会社DRECOM数据分析部门。擅长使用R语言进行数据分析，现主要从事数据分析环境的搭建和数据分析工作。合着有《数据科学养成读本》（技术评论社）、《R包使用手册》（东京图书）。

译者简介：

肖峰

日本东京工业大学计算机工学博士。曾在日本乐天株式会社乐天技术研究所从事研究工作。2013年回国后加入新浪，现任新浪个性化推荐团队算法负责人。拥有丰富的数据分析与建模能力。

‘陆’ 有哪些 Python 经典书籍

【Python从入门到精通经典书籍推荐】

Python入门
目的：了解Python，学会用Python编程。
Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

《Python编程入门：从入门到实践》
【同时使用Python 2.X和3.X讲解】

Amazon编程入门类榜首图书，最值得关注的Python入门书

从基本概念到完整项目开发，帮助零基础读者迅速掌握Python编程，开发实际项目

这本书分两部分：
第一部分介绍用Python编程所必须了解的基本概念，包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍，以及列表、字典、if语句、类、文件与异常、代码测试等内容；
第二部分将理论付诸实践，讲解如何开发三个项目，包括简单的Python 2D游戏开发，如何利用数据生成交互式的信息图，以及创建和定制简单的Web应用，并帮读者解决常见编程问题和困惑。

《Python基础教程（第2版·修订版）》
【Python 2.5讲解，Python 3上也能运行】

各大网店最畅销的Python入门书

全书分为三部分。
第一部分讲述Python语法，没有废话，还掺入了一些Python 3.0要注意的细节。
第二部分介绍了常用的GUI、框架等应用，点到即止，算是为第三部分做铺垫了，从数目众多的应用中可以了解到Python的强大。
第三部分是Project，全书最大的亮点，大家肯定喜欢。
作者将前面讲述的内容应用到10个引人入胜的项目中，并以模板的形式介绍了项目的开发过程，手把手教授Python开发。

《Python语言及其应用》
【Python 3.X】

语言风格轻松诙谐，讲解多种Python工具和第三方库

实例涉及商业、科研以及艺术领域使用Python开发各种应用

亚马逊最受欢迎的Python编程书之一，评分4.5

书中首先介绍了Python的基础知识，然后逐渐深入多种主题，结合教程和攻略式风格来讲解Python 3中的概念。每章结尾的练习可以帮助你巩固所学的知识。
本书会为你学习Python打下坚实的基础，包括测试、调试、代码复用的最佳实践以及其他开发技巧。

《Python编程入门（第3版）》
【Python 3.X 】

从算术运算、字符串、变量，到函数、数据结构、输入输出和异常处理，应有尽有

《父与子的编程之旅：与小卡特一起学Python》
【Python 2.X 】

原版Amazon 最受欢迎的青少年编程图书

最简单易学的内容组织方式，老少皆宜

第一版获Jolt大奖

本书中，Warren和Carter父子以亲切的笔调、通俗的语言，透彻全面地介绍了计算机编程世界。
他们以简单易学的Python语言为例，通过可爱的漫画、有趣的例子，生动地介绍了变量、循环、输入和输出、数据结构以及图形用户界面等编程的基本概念。
只要懂得计算机的基本操作，如启动程序、保存文件，任何人都可以跟随本书，由简入难，学会编写程序，甚至制作游戏。
本书内容经过教育专家的评审，经过孩子的亲身检验，并得到了家长的认可。

《编程导论》
【Python 2.7】

以麻省理工学院开放式课程（OpenCourseWare）中最受欢迎的计算机科学课程为基础，旨在培养读者的编程思维，使读者拥有计算机科学家的视野

本书涵盖了Python的大部分特性，重点介绍如何使用Python这门语言，共包含编程基础、Python程序设计语言、理解计算的关键概念、计算问题的解决技术等四个方面。
本书将Python语言特性和编程方法贯穿全书，目的是帮助读者在学习Python的同时掌握如何使用计算来解决有趣的问题。

Python进阶
需要一定Python基础。

《流畅的Python》
【兼顾Python 3和Python 2】

PSF研究员、知名PyCon演讲者心血之作

Python核心开发人员担纲技术审校

全面深入，对Python语言关键特性剖析到位

大量详尽代码示例，并附有主题相关高质量参考文献和视频链接

本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性，避免重复劳动，同时写出简洁、流畅、易读、易维护，并且具有地道Python风格的代码。本书尤其深入探讨了Python语言的高级用法，涵盖数据结构、Python风格的对象、并行与并发，以及元编程等不同的方面。

《Python项目开发实战（第2版）》
【Python 2.7】

网罗Python项目开发中的流程，让你的编程事半功倍

Python项目与封装/团队开发环境/问题驱动开发/源码管理（Mercurial） Jenkins持续集成（CI）/环境搭建与部署的自动化（Ansible）/Django框架……

这是一本偏工程的图书，没怎么讲Python语言基础知识，直接告诉你怎么搭建开发环境，做好代码管理和文档管理以及缺陷管理等工作。

《Python网络编程攻略》
【Python 2.7】

可作为任何一门网络编程课程中培养实践技能的补充材料

需要读者对Python语言及TCP/IP等基本的网络概念有了解，但即使不精通也能通过本书理解相关概念

本书全面介绍了Python网络编程涉及的重要问题，包括网络编程、系统和网络管理、网络监控以及Web应用开发。作者通过70多篇攻略，清晰简明地描述了各种网络任务和问题，提出了可用于多种场景的解决方案，并细致地分析了整个操作过程。

《Python网络编程（第3版）》
【Python 3.X】

涵盖网络编程所有经典话题，提供大量代码清单及示例

从应用开发角度介绍网络编程基本概念、模块以及第三方库

本书针对想要深入理解使用Python来解决网络相关问题或是构建网络应用程序的技术人员，结合实例讲解了网络协议、网络数据及错误、电子邮件、服务器架构和HTTP及Web应用程序等经典话题。
具体内容包括：全面介绍Python3中最新提供的SSL支持，异步I/O循环的编写，用Flask框架在Python代码中配置URL，跨站脚本以及跨站请求伪造攻击网站的原理及保护方法，等等。

《Python性能分析与优化》
【Python 2.X】

全面掌握Python代码性能分析和优化方法

消除性能瓶颈，迅速改善程序性能

本书首先介绍什么是性能分析，性能分析如何在项目开发周期中发挥作用，以及通过在项目中进行性能分析实践能够取得的效果。
紧接着介绍分析性能所需的核心工具（性能分析器和可视化性能分析器）。
然后介绍一系列性能优化技术，最后一章会介绍一个具有实际意义的优化案例。

《精通Python设计模式》
【Python 3.X】

用现实例子展示各模式的关键特性

16种基本设计模式，轻松解决软件设计常见问题

本书分三部分，共16章介绍一些常用的设计模式。
第一部分介绍处理对象创建的设计模式，包括工厂模式、建造者模式、原型模式；
第二部分介绍处理一个系统中不同实体（类、对象等）之间关系的设计模式，包括外观模式、享元模式等；
第三部分介绍处理系统实体之间通信的设计模式，包括责任链模式、观察者模式等。

《Flask Web开发：基于Python的Web应用开发实战》
【Python 2.7和3.3】

从安装与环境设置讲起，一步一步搭建服务器端Web应用

全流程讲解Web应用开发，给出最佳实践

本书共分三部分，全面介绍如何基于Python微框架Flask进行Web开发。
第一部分是Flask简介，介绍使用Flask框架及扩展开发Web程序的必备基础知识。
第二部分则给出一个实例，真正带领大家一步步开发完整的博客和社交应用Flasky，从而将前述知识融会贯通，付诸实践。
第三部分介绍了发布应用之前必须考虑的事项，如单元测试策略、性能分析技术、Flask程序的部署方式等。

《Python Web开发：测试驱动方法》
【（Django、Selenium）相关部分使用Python 3.3讲解】

亚马逊4.8星评好书

实战式TDD开发指南，使用Django等流行框架开发现代Web应用！

学习Django、Selenium、Git、jQuery和Mock，以及其他当前流行Web开发技术

“这本书很棒、很有趣，所讲的全都是重点知识。如果有人想用Python做测试、学习Django或者想使用Selenium，我极力推荐这本书。要使开发者保持头脑清醒，测试可谓至关重要。Harry完成了一项不可思议的工作，他不仅吸引了我们对测试的关注，而且还探索了切实可行的测试实践方案。”

——Michael Foord，Python核心开发者，unittest维护者

Python应用
用Python数据分析，数据处理，机器学习等等。

《数据科学入门》
【Python 2.7】

Google数据科学家、软件工程师Joel Grus作品

用Python从零开始讲解数据科学的重量级读本

数据科学、机器学习、模式识别领域必备

本书从零开始讲解数据科学。
具体内容包括Python简介，可视化数据，线性代数，统计，概率，假设与推断，梯度下降法，如何获取数据，k近邻法，朴素贝叶斯算法等。
作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念，通过讲解基础数据科学工具和算法实现，带你快速跨入数据科学大门。
书中含大量数据科学领域的库、框架、模块和工具包。

《机器学习实战》
【Python 2.7】

最畅销机器学习图书

介绍并实现机器学习的主流算法

面向日常任务的高效实战内容

全书通过精心编排的实例，切入日常工作任务，摒弃学术化语言，利用高效的可复用Python代码来阐释如何处理统计数据，进行数据分析及可视化。
通过各种实例，读者可从中学会机器学习的核心算法，并能将其运用于一些策略性任务中，如分类、预测、推荐。另外，还可用它们来实现一些更高级的功能，如汇总和简化等。

《机器学习系统设计》
【Python 2.7及以上】

微软Bing核心团队成员推出

聚焦算法编写和编程方式

结合大量实例学会解决实际问题

本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。

《Python数据处理》
【Python 2.7】

将数据处理过程自动化！

全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法，轻松实现高效数据处理！

本书采用基于项目的方法，介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。
主要内容包括：Python基础知识，如何从CSV、Excel、XML、JSON和PDF文件中提取数据，如何获取与存储数据，各种数据清洗与分析技术，数据可视化方法，如何从网站和API中提取数据。

《Python数据分析基础教程：NumPy学习指南（第2版）》
【Python 2.7】

NumPy中文入门教程，Python数据分析首选

从最基础的知识讲起，手把手带你进入大数据挖掘领域

囊括大量具有启发性与实用价值的实战案例

本书从NumPy安装讲起，逐渐过渡到数组对象、常用函数、矩阵运算、线性代数、金融函数、窗函数、质量控制等内容，致力于向初中级Python编程人员全面讲述NumPy及其使用。
另外，通过书中丰富的示例，你还将学会Matplotlib绘图，并结合使用其他Python科学计算库（如SciPy和Scikits），让工作更有成效，让代码更加简洁而高效。

《Python数据挖掘入门与实践》
【Python 3.4】

全面释放Python的数据分析能力

掌握大数据时代核心技术，轻松入门数据挖掘技术并将其应用于实际项目

本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言，由浅入深，以真实数据作为研究对象，真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书，读者将迈入数据挖掘的殿堂，透彻理解数据挖掘基础知识，掌握解决数据挖掘实际问题的最佳实践！

《Python科学计算基础教程》
【Python 2.7及以上】

精彩案例展示Numpy等科学计算模块的强大功能和广泛应用

剖析Python关于并行与大数据计算的方法

总结科学计算的任务、难点以及最佳实践经验

本书是将Python用于科学计算的实用指南，既介绍了相关的基础知识，又提供了丰富的精彩案例，并为读者总结了最佳实践经验。
其主要内容包括：科学计算的基本概念与选择Python的理由，科学工作流和科学计算的结构，科学项目相关数据的各个方面，用于科学计算的API和工具包，如何利用Python的NumPy和SciPy包完成数值计算，用Python做符号计算，数据分析与可视化，并行与大规模计算，等等。

《Python数据分析实战》
【Python 2.X】

了解Python在信息处理、管理和检索方面的强大功能

学会如何利用Python及其衍生工具处理、分析数据

三个真实Python数据分析案例，将理论付诸实践

《Python数据分析实战》展示了如何利用Python 语言的强大功能，以最小的编程代价进行数据的提取、处理和分析，主要内容包括：数据分析和Python 的基本介绍，NumPy 库，pandas 库，如何使用pandas 读写和提取数据，用matplotlib 库和scikit-learn 库分别实现数据可视化和机器学习，以实例演示如何从原始数据获得信息、D3 库嵌入和手写体数字的识别。

《Python网络数据采集》
【Python 3.X】

原书4.6星好评，一本书搞定数据采集

涵盖数据抓取、数据挖掘和数据分析

提供详细代码示例，快速解决实际问题

本书介绍网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。
第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。
第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。

《Python计算机视觉编程》
【Python 2.6及以上】

亚马逊计算机视觉类图书No.1

详细剖析多种计算机视觉工具

大量示例极易上手

本书是计算机视觉编程的权威实践指南，通过Python语言讲解了基础理论与算法，并通过大量示例细致分析了对象识别、基于内容的图像搜索、光学字符识别、光流法、跟踪、3D重建、立体成像、增强现实、姿态估计、全景创建、图像分割、降噪、图像分组等技术。

‘柒’ 《数据科学家修炼之道》pdf下载在线阅读全文，求百度网盘云资源

《数据科学家修炼之道》网络网盘pdf最新全集下载:
链接: https://pan..com/s/1j07q9c1KMlPSPQJcU9hUJQ

?pwd=p6ie 提取码: p6ie
简介：这是一本跟数据科学和数据科学家有关的“手册”，它还包含传统统计学、编程或计算机科学教科书中所没有的信息。

‘捌’ 求《数据科学导引》pdf

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）,平台有hadoop

‘玖’ 数据科学怎样进行大数据的入门级学习

数据科学怎样进行大数据的入门级学习？

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。
但从狭义上来看，我认为数据科学就是解决三个问题：
1. data pre-processing;(数据预处理）
2. data interpretation；（数据解读）
3.data modeling and analysis.（数据建模与分析）
这也就是我们做数据工作的三个大步骤：
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；
2、我们想看看数据“长什么样”，有什么特点和规律；
3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。
这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。
这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。
R programming
如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：
R in action：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（http://cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。
Data analysis and graphics using R：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。
但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：
Modern applied statistics with S：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）
Data manipulation with R：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。
R Graphics Cookbook：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。
An introction to statistical learning with application in R：这本书算是着名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。
A handbook of statistical analysis using R：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。
Python
Think Python，Think Stats，Think Bayes：这是Allen B. Downey写的着名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。
Python For Data Analysis：作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。
Introction to Python for Econometrics, Statistics and Data Analysis：这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。
Practical Data Analysis：这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸更多的瓜。
Python Data Visualization Cookbook：用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道
Exploratory Data Analysis 和 Data Visualization
Exploratory Data Analysis：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：
Exploratory Data Analysis with MATLAB：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。
Visualize This：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫http://flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A tour through the visualization zoo（A Tour Through the Visualization Zoo）
Machine Learning & Data Mining
这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名着“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。
The Element of Statistical Learning：要学机器学习，如果让我只推荐一本书，我就推荐这本巨着。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。
Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。
其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。
还有一些印象比较深刻的书：
Big Data Glossary：主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapRece，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。
Mining of Massive Datasets：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapRece的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。
Developing Analytic Talent：作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapRece在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。
Past, Present and Future of Statistical Science：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。
其它资料
Harvard Data Science：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides:（https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions:（https://github.com/cs109/content）
PyData：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）
工具
R/Python/MATLAB（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy, Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。
SQL（必备）：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。
MongoDB（可选）：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。
Hadoop/Spark/Storm（可选）: MapRece是当前最着名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。
OpenRefine（可选）：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。
Tableau（可选）：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。
Gephi（可选）：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

导航:首页 > 文档加密 > 数据科学入门pdf

数据科学入门pdf

【Python从入门到精通经典书籍推荐】

Python入门
目的：了解Python，学会用Python编程。
Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

Python进阶
需要一定Python基础。

Python应用
用Python数据分析，数据处理，机器学习等等。

与数据科学入门pdf相关的资料

导航:首页 > 文档加密 > 数据科学入门pdf

数据科学入门pdf

【Python从入门到精通经典书籍推荐】

Python入门目的：了解Python，学会用Python编程。Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

Python进阶需要一定Python基础。

Python应用用Python数据分析，数据处理，机器学习等等。

与数据科学入门pdf相关的资料

Python入门
目的：了解Python，学会用Python编程。
Python入门书众多，没必要全部阅读，根据介绍挑选合适自己的。PS：排名不分先后。

Python进阶
需要一定Python基础。

Python应用
用Python数据分析，数据处理，机器学习等等。