⑴ pic_ext啥用 python爬取百度贴吧图片
稀里糊涂,不知所云
⑵ 想用python写个在某个论坛自动回帖顶帖的程序,需要用到什么模块
以python 2.7为例。
首先肯定会用到: urllib urllib2 cookielib。顶贴一般也就是回复一个帖子了,那么要像服务器发送一个特定的http请求,用python构造出这个请求再发就行了,具体构造成什么样,可以用firebug等工具看实际发帖过程中发到服务器的请求。
还有可能用到:re htmllib BeautifulSoup json 等。用来解析获取的web页面,用正则表达式或者专用于html解析的包来分析页面,在页面里找东西(比如想要抢沙发的话,可能会找没有回复的帖子)。
更多可能用到的包:如PIL,PyQt 等。 PIL用于处理验证码图片,比如二值化。一说到验证码,问题就复杂了,可能想要人工输入验证码的话会用到GUI的包比如Qt,还有可能比较弱的验证码用PIL做简单的图像处理就能识别了,如何处理比较复杂的验证码可以单独开一个问题了,可能会涉及到人工智能方面的东西。
⑶ 如何用 Python 脚本模拟顶贴
首先下载安装python,建议安装2.7版本以上,3.0版本以下,由于3.0版本以上不向下兼容,体验较差。
打开文本编辑器,推荐editplus,notepad等,将文件保存成 .py格式,editplus和notepad支持识别python语法。
脚本第一行一定要写上 #!usr/bin/python
表示该脚本文件是可执行python脚本
如果您的python目录不在usr/bin目录下,则替换成当前python执行程序的目录
编写完脚本之后注意调试、可以直接用editplus调试。调试方法可自行网络。脚本写完之后,打开CMD命令行,前提是python 已经被加入到环境变量中,如果没有加入到环境变量,请网络
在CMD命令行中,输入 “python” + “空格”,即 ”python “;
将已经写好的脚本文件拖拽到当前光标位置,然后敲回车运行即可!
⑷ 求助,如何抓取百度贴吧楼层中的回复Python
打开一个帖子,按F12,在控制台里输入 $('cc div')
可以看看这篇文章:http://webmagic.io/docs/zh/posts/chx-cases/js-render-page.html
⑸ Python 有哪些好的学习资料或者博客
推荐Full Stack Python 有各种python资源汇总,从基础入门到各种框架web应用开发和部署,再到高级的ORM、Docker都有。以下是Full Stack Python 上总结的一些教程,我拙劣的翻译了以下,并调整(调整顺序并删了部分内容)了一下:
1、无开发经验,初学python
如果你不会其他语言,python是你的第一门语言:
A Byte of Python (简明python教程,这个有中文版简明 Python 教程)是非常好的入门教程。
Learn Python the Hard Way (Zed Shaw的免费教程,个人强烈推荐)
Python, Django and Flask教程: Real Python (收费,需购买)
short 5 minute video 解释了为什么你的出发点应该是要完成什么项目,或者解决什么问题,而不是为了学一门语言而去学一门语言。
Dive into Python 3 是一本开源的python教程,提供HTML和PDF版。
Code Academy 有一个为纯新手准备的 Python track 。
Introction to Programming with Python 介绍了基本语法和控制结构等,提供了大量代码示例。
O'Reilly 的书 Think Python: How to Think Like a Computer Scientist 是非常好的入门教材。
Python Practice Book 是一本python练习的书,帮你掌握python基本语法。
想通过做实际项目来学编程?看看这个 this list of 5 programming project for Python beginners(5个适合python初学者的编程项目)。
Reddit的创造者之一写了一个教程,如何用python构建一个博客网站(use Python to build a blog.),使非常好的web编程入门。
The fullstack python的作者写了一篇关于如何学习python的文章learning Python 。
2、有开发经验 ,初学Python
Learn Python in y minutes ,让你在几分钟内快速上手,有个大概了解。
Python for you and me , python的语法,语言的主要结构等,还包含来Flask Web App的教程。
The Hitchhiker’s Guide to Python
How to Develop Quality Python Code ,如何开发高质量的python代码
3、进阶
The Python Ecosystem: An Introction , 关于python生态系统,虚拟机、python包管理器pip、虚拟环境virtualenv、还有很多进阶主题
The Python Subreddit ,就是python的reddit节点(相当于中国的贴吧),是一个活跃的社区,可以交流讨论,解决问题等。
Good to Great Python Reads ,收集进阶和高级python文章,讲了很多细微差异和python语言本身的细节。
博客 Free Python Tips ,有很多python和python生态系统的文章。
Python Books ,有一些免费的Python, Django, 数据分析等方面的书。
Python IAQ: Infrequently Asked Questions ,关于python 经常问到的问题。
4、视频,屏幕录像,演示文稿等
一些技术交流会议的视频录像: best Python videos
5、python的包
awesome-python ,收集了python各种非常好用非常酷的包,确实非常awesome,让作者相见恨晚( I wish I had this page when I was just getting started)。
easy-python
6、 播客(Podcasts)
Talk Python to Me , 关注使用python的人们和组织,每一期都会邀请一些开发者谈谈他们的工作等。
Podcast.__init__ ,关于python和让python更牛B的人们。
7、新闻资讯(可订阅)
Python Weekly , 最新的python文章、视频、项目、资讯 。
PyCoder's Weekly ,和python weekly类似。
Import Python
⑹ 想用python写个在某个论坛自动回帖顶帖的程序,需要用到什么模块
以python 2.7为例。
首先肯定会用到: urllib urllib2
cookielib。顶贴一般也就是回复一个帖子了,那么要像服务器发送一个特定的http请求,用python构造出这个请求再发就行了,具体构造成什
么样,可以用firebug等工具看实际发帖过程中发到服务器的请求。
还有可能用到:re htmllib BeautifulSoup json 等。用来解析获取的web页面,用正则表达式或者专用于html解析的包来分析页面,在页面里找东西(比如想要抢沙发的话,可能会找没有回复的帖子)。
更
多可能用到的包:如PIL,PyQt 等。
PIL用于处理验证码图片,比如二值化。一说到验证码,问题就复杂了,可能想要人工输入验证码的话会用到GUI的包比如Qt,还有可能比较弱的验证码用
PIL做简单的图像处理就能识别了,如何处理比较复杂的验证码可以单独开一个问题了,可能会涉及到人工智能方面的东西。
⑺ 求助,怎么利用Python爬取贴吧帖子楼中楼的
楼中楼里面没办法看原贴,不过我可以教你一个办法,你可以在楼中楼里回复一下,再从你的回复贴里面找原贴就行了。
⑻ python新手代码是什么
python新手代码是:
1、shuizitiqu.py——————数字提取。
2、socker_ping.py——————长ping 检测网络状态。
3、spider_tieba.py——————爬取网络贴吧图片。
4、tianqi.py——————微信自动回复天气。
5、ticket_searchTrain.py——————12306火车票查询。
6、ticket_stations.py——————12306火车站点。
7、txt.py——————txt文件抽取。
8、weixinhuifu.py——————微信自动回复天气。
9、xlsfile.py——————xls文件提取。
⑼ 有朋友写过用python定时顶贴的爬虫吗
如果你熟悉python的话,你可以自己编爬虫来抓取评价;如果觉得时间成本高,可以用采集工具,市面上采集功能有几个,比如集搜客、网络矿工、狂采等,可以用集搜客
因为是免费的,在官网可以下现成的规则,淘宝天猫搜索列表、商品详细等;再简单一点,付费定制数据了。
⑽ 怎么用Python读取本地网站的内容
思路如下:
使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。
下面给你个示例代码供参考,从网络贴吧抓取帖子内容,并保存在文件中。
#-*-coding:utf-8-*-
importurllib2
importre
url='
page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<ahref=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1class="core_title_txt"title="(.*?)"')
content_re=re.compile('<divid="post_content_d*"class="d_post_contentj_d_post_content">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
content=re.findall(content_re,page)
withopen('%s.txt'%title,'w')asf:
foriincontent:
i=re.sub(none_re,'',i)
i=re.sub(br_re,' ',i)
f.write(i.encode('utf-8').strip()+' ')