1. 如何学习python爬虫
爬虫是入门Python最好的方式,没有之一。 Python有很多应用的方向,比如后台开发、web开发、科学计算等等,但爬虫对于初学者而
言更友好,原理简单,几行代码就能实现基本的爬虫,学习的过程更加平滑,你能体会更大的成就感。
掌握基本的爬虫后,你再去学习Python数据分析、web开发甚至机器学习,都会更得心应手。因为这个过程中,Python基本语法、库的
使用,以及如何查找文档你都非常熟悉了。
对于小白来说,爬虫可能是一件非常复杂、技术门槛很高的事情。比如有的人则认为先要掌握网页的知识,遂 开始 HTMLCSS,结果入了前端的坑 ,瘁……
但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议你从 一开始就要有一个具体的目标。
在目标的驱动下,你的学习才会更加精准和高效。 那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的。 这里给你一
条平滑的、零基础快速入门的学习路径。
python学习网,免费的python学习网站,欢迎在线学习!
学习 Python 包并实现基本的爬虫过程
大部分爬虫都是按 “发送请求——获得页面——解析页面——抽取并储存内容” 这样的流程来进行,这其实也是模拟了我们使用浏览器
获取网页信息的过程。
Python中爬虫相关的包很多:urllib、requests、bs4、scrapy、pyspider 等, 建议从requests+Xpath 开始 ,requests 负责连接网
站,返回网页,Xpath 用于解析网页,便于抽取数据。
如果你用过 BeautifulSoup,会发现 Xpath 要省事不少,一层一层检查元素代码的工作,全都省略了。这样下来基本套路都差不多, 一
般的静态网站根本不在话下,豆瓣、糗事网络、腾讯新闻等基本上都可以上手了 。
掌握各种技巧,应对特殊网站的反爬措施
当然,爬虫过程中也会经历一些绝望啊,比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。
遇到这些反爬虫的手段,当然还需要一些高级的技巧来应对,常规的比如 访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等 。
往往网站在高效开发和反爬虫之间会偏向前者,这也为爬虫提供了空间,掌握这些应对反爬虫的技巧,绝大部分的网站已经难不到你了。
学习 scrapy,搭建工程化的爬虫
掌握前面的技术一般量级的数据和代码基本没有问题了,但是在遇到非常复杂的情况,可能仍然会力不从心,这个时候,强大的 scrapy
框架就非常有用了。
scrapy 是一个功能非常强大的爬虫框架,它不仅能便捷地构建request,还有强大的 selector 能够方便地解析 response,然而它最让人
惊喜的还是它超高的性能,让你可以将爬虫工程化、模块化。
学会 scrapy,你可以自己去搭建一些爬虫框架,你就基本具备爬虫工程师的思维了。
学习数据库基础,应对大规模数据存储
爬回来的数据量小的时候,你可以用文档的形式来存储,一旦数据量大了,这就有点行不通了。所以掌握一种数据库是必须的,学习目前
比较主流的 MongoDB 就OK。
MongoDB 可以方便你去存储一些非结构化的数据 ,比如各种评论的文本,图片的链接等等。你也可以利用PyMongo,更方便地在
Python中操作MongoDB。
因为这里要用到的数据库知识其实非常简单,主要是 数据如何入库、如何进行提取 ,在需要的时候再学习就行。
分布式爬虫,实现大规模并发采集
爬取基本数据已经不是问题了,你的瓶颈会集中到爬取海量数据的效率。这个时候,相信你会很自然地接触到一个很厉害的名字: 分布
式爬虫 。
分布式这个东西,听起来很恐怖, 但其实就是利用多线程的原理让多个爬虫同时工作 ,需要你掌握 Scrapy + MongoDB + Redis 这三种工具 。
Scrapy 前面我们说过了,用于做基本的页面爬取,MongoDB 用于存储爬取的数据,Redis 则用来存储要爬取的网页队列,也就是任务
队列。
所以有些东西看起来很吓人,但其实分解开来,也不过如此。当你能够写分布式的爬虫的时候,那么你可以去尝试打造一些基本的爬虫架
构了,实现一些更加自动化的数据获取。
你看,这一条学习路径下来,你已然可以成为老司机了,非常的顺畅。所以在一开始的时候,尽量不要系统地去啃一些东西,找一个实际
的项目(开始可以从豆瓣、小猪这种简单的入手),直接开始就好 。
2. 如何系统地自学 Python
是否非常想学好 Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓?
幸运的是,Python 是一门初学者友好的编程语言,想要完全掌握它,你不必花上太多的时间和精力。
Python 的设计哲学之一就是简单易学,体现在两个方面:
语法简洁明了:相对 Ruby 和 Perl,它的语法特性不多不少,大多数都很简单直接,不玩儿玄学。
切入点很多:Python 可以让你可以做很多事情,科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,总有一个是你感兴趣并且愿意投入时间的。
废话不多说,学会一门语言的捷径只有一个: Getting Started
¶ 起步阶段
任何一种编程语言都包含两个部分:硬知识和软知识,起步阶段的主要任务是掌握硬知识。
°1 硬知识
“硬
知识”指的是编程语言的语法、算法和数据结构、编程范式等,例如:变量和类型、循环语句、分支、函数、类。这部分知识也是具有普适性的,看上去是掌握了一
种语法,实际是建立了一种思维。例如:让一个 Java 程序员去学习 Python,他可以很快的将 Java 中的学到的面向对象的知识 map 到
Python 中来,因此能够快速掌握 Python 中面向对象的特性。
如果你是刚开始学习编程的新手,一本可靠的语法书是非常重要的。它看上去可能非常枯燥乏味,但对于建立稳固的编程思维是必不可少。
下面列出了一些适合初学者入门的教学材料:
❖“笨方法学 Python”:http://learnpythonthehardway.org/book/
这本书在讲解 Python 的语法成分时,还附带大量可实践的例子,非常适合快速起步。
❖“廖雪峰的 Python 2.7 教程”:Home - 廖雪峰的官方网站
Python 中文教程的翘楚,专为刚刚步入程序世界的小白打造。
❖“The Hitchhiker’s Guide to Python!”:The Hitchhiker’s Guide to Python!
这本指南着重于 Python 的最佳实践,不管你是 Python 专家还是新手,都能获得极大的帮助。
❖“Python 官方文档”:Our Documentation
实践中大部分问题,都可以在官方文档中找到答案。
❖ 辅助工具:Python Tutor
一个 Python 对象可视化的项目,用图形辅助你理解 Python 中的各种概念。
Python 的哲学:
用一种方法,最好是只有一种方法来做一件事。
学习也是一样,虽然推荐了多种学习资料,但实际学习的时候,最好只选择其中的一个,坚持看完。
必要的时候,可能需要阅读讲解数据结构和算法的书,这些知识对于理解和使用 Python 中的对象模型有着很大的帮助。
°2 软知识
“软知识”则是特定语言环境下的语法技巧、类库的使用、IDE的选择等等。这一部分,即使完全不了解不会使用,也不会妨碍你去编程,只不过写出的程序,看上去显得“傻”了些。
对
这些知识的学习,取决于你尝试解决的问题的领域和深度。对初学者而言,起步阶段极易走火,或者在选择 Python 版本时徘徊不决,一会儿看 2.7
一会儿又转到 3.0,或者徜徉在类库的大海中无法自拔,Scrapy,Numpy,Django
什么都要试试,或者参与编辑器圣战、大括号缩进探究、操作系统辩论赛等无意义活动,或者整天跪舔语法糖,老想着怎么一行代码把所有的事情做完,或者去构想
圣洁的性能安全通用性健壮性全部满分的解决方案。
很多“大牛”都会告诫初学者,用这个用那个,少走弯路,这样反而把初学者推向了真正的弯路。
还不如告诉初学者,学习本来就是个需要你去走弯路出 Bug,只能脚踏实地,没有奇迹只有狗屎的过程。
选择一个方向先走下去,哪怕脏丑差,走不动了再看看有没有更好的解决途径。
自己走了弯路,你才知道这么做的好处,才能理解为什么人们可以手写状态机去匹配却偏要发明正则表达式,为什么面向过程可以解决却偏要面向对象,为什么我可以操纵每一根指针却偏要自动管理内存,为什么我可以嵌套回调却偏要用 Promise...
更重要的时,你会明白,高层次的解决方法都是对低层次的封装,并不是任何情况下都是最有效最合适的。
技术涌进就像波浪一样,那些陈旧的封存已久的技术,消退了迟早还会涌回的。就像现在移动端应用、手游和 HTML5 的火热,某些方面不正在重演过去 PC 的那些历史么?
因此,不要担心自己走错路误了终身,坚持并保持进步才是正道。
起步阶段的核心任务是掌握硬知识,软知识做适当了解,有了稳固的根,粗壮的枝干,才能长出浓密的叶子,结出甜美的果实。
¶ 发展阶段
完成了基础知识的学习,必定会感到一阵空虚,怀疑这些语法知识是不是真的有用。
没错,你的怀疑是非常正确的。要让 Python 发挥出它的价值,当然不能停留在语法层面。
发展阶段的核心任务,就是“跳出 Python,拥抱世界”。
在你面前会有多个分支:科学计算和数据分析、爬虫、Web 网站、游戏、命令行实用工具等等等等,这些都不是仅仅知道 Python 语法就能解决的问题。
拿
爬虫举例,如果你对计算机网络,HTTP协议,HTML,文本编码,JSON一无所知,你能做好这部分的工作么?而你在起步阶段的基础知识也同样重要,如
果你连循环递归怎么写都还要查文档,连 BFS 都不知道怎么实现,这就像工匠做石凳每次起锤都要思考锤子怎么使用一样,非常低效。
在这个阶段,不可避免要接触大量类库,阅读大量书籍的。
°1 类库方面
“Awesome Python 项目”:vinta/awesome-python · GitHub
这里列出了你在尝试解决各种实际问题时,Python 社区已有的工具型类库,如下图所示:
你可以按照实际需求,寻找你需要的类库。
至于相关类库如何使用,必须掌握的技能便是阅读文档。由于开源社区大多数文档都是英文写成的,所以,英语不好的同学,需要恶补下。
°2 书籍方面:
这里我只列出一些我觉得比较有一些帮助的书籍,详细的请看豆瓣的书评:
科学和数据分析:
❖“集体智慧编程”:集体智慧编程 (豆瓣)
❖“数学之美”:数学之美 (豆瓣)
❖“统计学习方法”:统计学习方法 (豆瓣)
❖“Pattern Recognition And Machine Learning”:Pattern Recognition And Machine Learning (豆瓣)
❖“数据科学实战”:数据科学实战 (豆瓣)
❖“数据检索导论”:信息检索导论 (豆瓣)
爬虫:
❖“HTTP 权威指南”:HTTP权威指南 (豆瓣)
Web 网站:
❖“HTML & CSS 设计与构建网站”:HTML & CSS设计与构建网站 (豆瓣)
...
列到这里已经不需要继续了。
聪明的你一定会发现上面的大部分书籍,并不是讲 Python 的书,而更多的是专业知识。
事实上,这里所谓“跳出 Python,拥抱世界”,其实是发现 Python 和专业知识相结合,能够解决很多实际问题。这个阶段能走到什么程度,更多的取决于自己的专业知识。
¶ 深入阶段
这个阶段的你,对 Python 几乎了如指掌,那么你一定知道 Python 是用 C 语言实现的。
可是 Python 对象的“动态特征”是怎么用相对底层,连自动内存管理都没有的C语言实现的呢?这时候就不能停留在表面了,勇敢的拆开 Python 的黑盒子,深入到语言的内部,去看它的历史,读它的源码,才能真正理解它的设计思路。
这里推荐一本书:
“Python 源码剖析”:Python源码剖析 (豆瓣)
这本书把 Python 源码中最核心的部分,给出了详细的阐释,不过阅读此书需要对 C 语言内存模型和指针有着很好的理解。
另
外,Python 本身是一门杂糅多种范式的动态语言,也就是说,相对于 C 的过程式、 Haskell 等的函数式、Java
基于类的面向对象而言,它都不够纯粹。换而言之,编程语言的“道学”,在 Python
中只能有限的体悟。学习某种编程范式时,从那些面向这种范式更加纯粹的语言出发,才能有更深刻的理解,也能了解到 Python 语言的根源。
这里推荐一门公开课
“编程范式”:斯坦福大学公开课:编程范式
讲师高屋建瓴,从各种编程范式的代表语言出发,给出了每种编程范式最核心的思想。
值得一提的是,这门课程对C语言有非常深入的讲解,例如C语言的范型和内存管理。这些知识,对阅读 Python 源码也有大有帮助。
Python 的许多最佳实践都隐藏在那些众所周知的框架和类库中,例如 Django、Tornado 等等。在它们的源代码中淘金,也是个不错的选择。
¶ 最后的话
每个人学编程的道路都是不一样的,其实大都殊途同归,没有迷路的人只有不能坚持的人。虽然听上去有点鸡汤,但是这是事实。
希望想学 Python 想学编程的同学,不要犹豫了,看完这篇文章,Just getting started~
3. 想学python去哪里比较好
既然做好学习Python的准备,那么我们就要知己知彼!作为一门入门语言进行学习,Python还是比较合适的!与其他语言想比,Python的学习甚至说安装包就可以开始你的征程!当然,这里还是要说,一个程序员的修养绝对不能止于一门,两门的编程语言,哪怕是出于就业的目的,我们都要多多了解相关的技术知识。
如今,Python 已经成为一种再主流不过的编程语言了。它天生丽质,易于读写,非常实用,从而赢得了广泛的群众基础,被誉为“宇宙最好的编程语言”,被无数程序员热烈追捧。
推荐一下免费学习的网站给你
1.Python Code Examples:
https://www.programcreek.com/python/
在这里你可以搜索到你想要学习的代码示例,通过例子来进行模仿学习。
2.python中文学习大本营:
http://www.pythondoc.com/
这里有Flask资料大全,如果你需要,在这里可以找到你想要的几乎所有的教程。
3.1Python 3 Mole of the Week :
https://pymotw.com/3/
3.2Python Mole of the Week:
https://pymotw.com/2/
Python 3 Mole of the Week系列文章,每篇介绍一个 Python 标准库的使用.
4. Welcome to Python for you and me:
http://pymbook.readthedocs.io/en/latest/
主要是面对初学者的一个网站,介绍 Python的语法,项目经验等。
5. CheckiO is a code game coders:
https://py.checkio.org/
看上去就很像一个游戏界面,事实上,当你使用的时候会发现:这就是一个游戏吧!相当于你学会编程之后用它做一个闯关游戏,通过补充代码实现对应游戏要求,是很有趣的一个网站。
6.Reddit:
https://www.reddit.com/r/Python/
Reddit上有大量关于 Python 的链接,也会有不少程序员在这里进行交流,如果你有问题的话,可以在上面进行提问,或许能得到不错的答复。
7.W3Cschool Python 微课:
4. 有哪些值得推荐的Python学习网站
1.Python.org
Python官方网站。你可以从这里下载Python、使用、学习Python。官方文档自然是最权威的学习资料,只要你英文水平够,学习起来应该不难。
2.Python教程
Python教程以及以其为代表的一系列中文Python教程。考虑到可能部分人的英文水平会成为阅读Python官方文档的障碍,所以中文教程也是必须的。相对于官方文档,这批教程可能更加适合初学者,也比较能够建立体系。
3.Stack Overflow
英语站点,50%的程序员日常工作就是从Google复制代码,剩下的50%就是从这个网站复制了。
4.Django
以及其他常用的所有框架的文档。不同的学习方向会有不同的框架,比如tensorflow、Flask 、Tornado、Requests、Scrapy等等。
5.CSDN
以CSDN为代表的一众国内博客站,还有51CTO、开源中国、博客园等等。
5. 推荐几个学习Python的免费网站
1、Python @ Coursera
Pythonspot是一个综合教程,划分了很多不同类别的知识板块,首先你将拥有初学者资源来帮你开始Python的学习,然后你继续保持前进你能学到更多关于使用Python开发web等。
6. 学习python在哪个网站可以看到大神写的代码
国外的大神:https://github.com/pypa/pipenv
国内的知名python工程师:https://github.com/dongweiming
7. 如何从零开始学python
1、学习的时候,我们都是要从Python的基础语法开始学习 ,了解什么是Python的变量 什么是循环 什么是函数,什么是模块。类等等。总之,基础是学习以后高级开发的基石。
这个阶段可以,选择一些经典书籍或者视频进行学习。
书籍可以看看《python快乐编程—基础入门》这本书,是针对零基础学生来编写的书。
2、在学习完基础语法的时候,你也对python有了一定程度的了解了,也知道Python有很多的学习方向,比如说数据采集方向(爬虫),或者Web开发方向,也可能是最近特别火热的人工智能方向。每个方向所需要的技术都是不尽相同的,所以在我们学习完成Python的基础语法之后,一定要慎重选择自己之后的进阶方向。
3、在进阶阶段,建议以最新的python视频学习为主,相关书籍为辅,这个阶段主要是学的技术是最新的,不要给自己留一个学完之后技术已经过时的惨败后果。
此外还有一些小小的学习技巧分享给大家,希望大家调整好心态,坚持下去!
1.作为小白刚接触编程,理解起来慢很正常。不能理解的东西,也不要死磕太久,在不断的练习中,你对代码的理解会越来越深。
2.个人认为,人按学习能力可以暴力分为:上手快&忘得快,上手慢&理解深,上手快&理解深。好了,第三类人我就不想多说什么了。。。相信很多小伙伴都是第二类人!
3. 遇到问题,别死磕,多用搜索引擎,多看大牛的博客。
4. 觉得某个知识点时间花得久了,无非是想短时间投入,获得较大的成就感,或者说想一帆风顺敲代码,别遇到什么bug。不存在的。而且,一般情况下,花越多时间理解的知识点,花越多时间改好的bug,不是会获得越大的成就感才对嘛?!
8. 如何自学 Python
其实python非常适合初学者入门。相比较其他不少主流编程语言,有更好的可读性,因此上手相对容易。自带的各种模块加上丰富的第三方模块,免去了很多“重复造轮子”的工作,可以更快地写出东西。
我是真正零基础开始学Python的,从一开始的一窍不通,到3个月后成功搭建了一个动态网站(没有用任何框架)。相比于计算机大牛,我更加知道一个小白将会遇到什么坑,遇到哪些难点。我把我的学习过程写在下面,并附上在每个阶段的学习资料,希望对零基础的Python学习
9. 编写python用哪个编辑器
使用IDLE或者Python Shell来编写Python是非常适合于简单程序的,但是这些工具往往将大型的编程项目变成一个个充满绝望和沮丧的
“坑”。使用一款集成开发环境甚至是一款好的专用的代码编辑器会让编程充满乐趣,但是如何选择呢?
集成开发环境(IDE,Integrated Development Environment)是专用于软件开发的程序。顾名思义,IDE集成了几款专门为软件开发
而设计的工具。这些工具通常包括一个专门为了处理代码的编辑器(例如语法高亮和自动补全);构建、执行、调试工具和某种形式的源
代码控制。
下面是常见的Python编辑器
Eclipse + PyDev
如果你足够关注开源社区,那么你一定听说过Eclipse。Eclipse实际上是一款面向Java开发的兼容Linux, Windows和OS X的集成开发环
境。它拥有丰富的插件和扩展功能市场,这使得Eclipse适用于各种各样的开发项目。
其中一个插件就是PyDev,它支持Python调试、代码补全和交互式Python控制台。在Eclipse中安装PyDev非常便捷,只需从Eclipse中选
择“Help”点击“Eclipse Marketplace”然后搜索PyDev。点击安装,必要的时候重启Eclipse即可。
Sublime Text
Sublime Text是一款非常流行的代码编辑器,其开发者是一名谷歌的工程师,其梦想是使之成为更好的文本编辑器。Sublime Text支持
Python代码编辑同时兼容所有平台,并且丰富的插件(称之为“包”)扩展了语法和编辑功能。
安装额外的Python扩展可能会比较棘手,Sublime Text中所有的包都是用Python写成的,并且安装社区扩展往往需要直接在Sublime
Text中执行Python脚本。
python学习网,免费的python学习网站,欢迎在线学习!
Atom
同样兼容所有平台的Atom被称为是“21世纪可破解的文本编辑器”。开源的Atom拥有时尚的界面、文件系统浏览器和扩展插件市场,
它是使用Electron构建的,Electron使用JavaScript、HTML和CSS构建跨平台的桌面应用。Python语言由一款可在Atom运行时安装的扩
展插件支持。
VI/VIM
在文本编辑器战场另一侧是VI(又名VIM),默认安装在几乎每一个UNIX系统和Mac OS X系统中,VI有着同样的狂热追随。VI和VIM是
一种模型编辑器,它将文本查看从文本编辑中分离。VIM在原始VI之上做了诸多改进,包括可扩展模型和就地代码构建。VIMScripts可用
于各种Python开发任务。
PyCharm
PyCharm是最好的一个(也是唯一一个)专门面向于Python的全功能集成开发环境。同样拥有付费版(专业版)和免费开源版(社区
版),PyCharm不论是在Windows, Mac OS X系统中, 还是在Linux系统中都支持快速安装和使用。
开箱即用,PyCharm直接支持Python开发环境,打开一个新的文件然后就可以开始编写代码。你也可以在PyCharm中直接运行和调试
Python程序,并且它支持源码管理和项目。