‘壹’ python 爬虫时,urllib2.HTTPError:HTTP Error 502:Bad Gateway是什么原因怎么解决
可能是那个网站阻止了这类的访问,只要在请求中加上伪装成浏览器的header就可以了,比如:
headers={
'User-Agent':'Mozilla/5.0(Windows;U;WindowsNT6.1;en-US;rv:1.9.1.6)Gecko/20091201Firefox/3.5.6'
}
req=urllib2.Request(
url="http://www.qiushike.com/imgrank"
,
headers=headers
)
myResponse=urllib2.urlopen(req)
‘贰’ python登陆17zuoye.com
用python登录,需要传入cookie,并在cookie里把账号密码传入进去就行
首先利用浏览器的开发工具:
importurllib,urllib2,cookielib
postdata=urllib.urlencode({
'j_username':'xxxx',#你的账号
'j_password':'xxxx'#你的密码
})
url='http://ucenter.17zuoye.com/j_spring_security_check'#登录网址
ckfile='cookie.txt'创建一个文档来存储数据
cookie=cookielib.MozillaCookieJar(ckfile)
res=urllib2.HTTPCookieProcessor(cookie)
opener=urllib2.build_opener(res)
cont=opener.open(url,postdata)
cookie.save(ignore_discard=True,ignore_expires=True)#保存cookie到本地的cookie.txt
已经搞定了,你可以再添加一个url2,用opener.open(url2)来验证是否登录成功
‘叁’ python http requests 怎么实现模拟登录,提交表单
以下实例是一个完整的代码,实现了从博客获取内容发布至网络,分别实践抓取博客内容、模拟登录、表单提交这几步;
#注意,以下程序是一个完全程序,如果只需要实现模拟登录,提交表单,删除抓取部分即可,相关的代码已经清楚标注,可以根据自己实际情况修改。
代码如下:
# -*- coding: utf-8 -*-
import re
import urllib
import urllib2
import cookielib
#第一步,获取博客标题和正文 ,“IP”可以改为实际地址;
url = "IP"
sock = urllib.urlopen(url)
html = sock.read()
sock.close()
content = re.findall('(?<=blogstory">).*(?=<p class="right artical)', html, re.S)
content = re.findall('<script.*>.*</script>(.*)', content[0], re.S)
title = re.findall('(?<=<title>)(.*)-.* - CSDN.*(?=</title>)', html, re.S)
#根据文章获取内容新建表单值
blog = {'spBlogTitle': title[0].decode('utf-8').encode('gbk'), #文章标题
'spBlogText': content[0].decode('utf-8').encode('gbk'),#文章内容
'ct': "1",
'cm': "1"}
del content
del title
#第二步,模拟登录网络;
cj = cookielib.CookieJar()
#登陆网络的用户名和密码
post_data = urllib.urlencode({'username': '[username]', 'password': '[password]', 'pwd': '1'})
#登录地址路径
path = 'https://passport..com/?login'
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [('User-agent', 'Opera/9.23')]
urllib2.install_opener(opener)
req = urllib2.Request(path, post_data)
conn = urllib2.urlopen(req)
#获取网络登陆认证令牌
bd = urllib2.urlopen(urllib2.Request('http://hi..com/[username]/creat/blog')).read()
bd = re.findall('(?<=bdstoken\" value=\").*(?=ct)', bd, re.S)
blog['bdstoken'] = bd[0][:32]
#设置分类名
blog['spBlogCatName'] = 'php'
#第四步,比较表单,提交表单;req2 = urllib2.Request('http://hi..com/[username]/commit', urllib.urlencode(blog))
#最后,查看表单提交后返回内容,检验;
print urllib2.urlopen(req2).read()
#注意:将[username]/[password]替换为自己真实用户名和密码
‘肆’ 如何在Python中使用urllib2
import urllib2
req = urllib2.Request('http://portal.huanuo-nsb.com/login')
html = urllib2.open(req)
html = html.read()
‘伍’ python中的urllib2的302跳转怎么处理cookie
cookie只是HTTP头中的键值对,你可以手动去请求前赋值,请求完保存。。。
或者使用包可实现:
importcookielib,urllib2
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
r=opener.open("http://example.com/")
这里cj就会自己去实现请求完存储,和请求前赋值了
官方文档:https://docs.python.org/2/library/cookielib.html
‘陆’ 为什么python使用urllib2这里会出现错误
表面现象看起来是,你发送的地址给google服务器,但是此地址有问题,导致人家返回你错误,说是:
HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.
而此地址,看起来,你是从浏览器之类的地方,拷贝过来的。
但是,实际上,如果需要程序模拟此过程的话,需要找到此地址中的各种参数,即:
num=100
hl=zh-CN
newwindow=1
safe=strict
q=inurl%3Aadmin_login.aspx
oq=inurl%3Aadmin_login.aspx
gs_l=serp.3...125521.131943.0.132041.38.31.1.0.0.3.209.2367.23j3j1.27.0...0.0...1c.1.bvH-WnKtKjg
中每个参数的值,是如何获得的,
然后再用程序去模拟过程,生成对应的参数,
然后才是去将此地址发送给人家的google的服务器,才能获得你所想要的结果的。
总之一句话,先要自己搞懂内部执行的过程,然后才是用程序模拟此过程。
‘柒’ 如何在Python中使用urllib2
urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用下面的方式:
import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'IP:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
opener = urllib2.build_opener(proxy_handler)
else:
opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)
这里要注意的一个细节,使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。这样后面的使用会很方便,但不能做更细粒度的控制,比如想在程序中使用两个不同的 Proxy 设置等。比较好的做法是不使用 install_opener 去更改全局的设置,而只是直接调用 opener 的 open 方法代替全局的 urlopen 方法。
‘捌’ 如何用python实现网页自动登录
这个你要用到BP,抓取数据包,通过分析数据包提交的表单,每次调用脚本的时候将表单进行提交,但一般这种可行比较低,看网页的安全性做的如何,如果有验证码和token校验的话你就不用试了。