利用python爬取用户信息_如何入门 python 爬虫

① 如何用 python 爬取需要登录的网站

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作。它没有我想象中那么简单，因此我决定为它写一个辅助教程。

在本教程中，我们将从我们的bitbucket账户中爬取一个项目列表。

教程中的代码可以从我的 Github 中找到。

我们将会按照以下步骤进行：

提取登录需要的详细信息
执行站点登录
爬取所需要的数据

在本教程中，我使用了以下包（可以在 requirements.txt 中找到）：

Python
requests
lxml
1
2

requests
lxml

步骤一：研究该网站
打开登录页面

进入以下页面 “bitbucket.org/account/signin”。你会看到如下图所示的页面（执行注销，以防你已经登录）

仔细研究那些我们需要提取的详细信息，以供登录之用

在这一部分，我们会创建一个字典来保存执行登录的详细信息：

1. 右击 “Username or email” 字段，选择“查看元素”。我们将使用 “name” 属性为 “username” 的输入框的值。“username”将会是 key 值，我们的用户名/电子邮箱就是对应的 value 值（在其他的网站上这些 key 值可能是 “email”，“ user_name”，“ login”，等等）。

2. 右击 “Password” 字段，选择“查看元素”。在脚本中我们需要使用 “name” 属性为 “password” 的输入框的值。“password” 将是字典的 key 值，我们输入的密码将是对应的 value 值（在其他网站key值可能是 “userpassword”，“loginpassword”，“pwd”，等等）。

3. 在源代码页面中，查找一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。“csrfmiddlewaretoken” 将是 key 值，而对应的 value 值将是这个隐藏的输入值（在其他网站上这个 value 值可能是一个名为 “csrftoken”，“ authenticationtoken” 的隐藏输入值）。列如：“”。

最后我们将会得到一个类似这样的字典：

Python
payload = {
"username": "<USER NAME>",
"password": "<PASSWORD>",
"csrfmiddlewaretoken": "<CSRF_TOKEN>"
}
1
2
3
4
5

payload = {
"username": "<USER NAME>",
"password": "<PASSWORD>",
"csrfmiddlewaretoken": "<CSRF_TOKEN>"
}

请记住，这是这个网站的一个具体案例。虽然这个登录表单很简单，但其他网站可能需要我们检查浏览器的请求日志，并找到登录步骤中应该使用的相关的 key 值和 value 值。

② 如何入门 python 爬虫

看一些简单的视频。Python作为一种高级编程语言，在2018年世界脚本语言列表中排名第一，也是许多领域的首选语言。

无论是从入门级选手到专业级选手都在做的爬虫，还是Web 程序开发、桌面程序开发还是科学计算、图像处理，Python都可以胜任。

Python基于清晰的语法和直观的问题解决方案还有其强大的跨平台GUI工具，也是激起许多小白初学者兴趣的重要条件，相比于其他语言，Python效率极高，程序包含的代码行更少，代码也更容易阅读、调试和扩展。

③ 如何用python爬取网站数据

这里简单介绍一下吧，以抓取网站静态、动态2种数据为慧返拍例，实验环境win10+python3.6+pycharm5.0，主要内容如下：

抓取网站静态数据（数据在网页源码中）：以糗事网络网站数据为例

1.这里假设我们抓取的数据如下，主要包括用户昵称、内容、好笑数和评论数这4个字段，如下：

对应的网页源码如下，包含我们所需要的数据：

2.对应网页结构，主要代码如下，很简单，主要用到requests+BeautifulSoup，其中requests用于请求页面，BeautifulSoup用于解析页面：

程序运行截图如下，已经成功爬取到数据：

抓取网站动态数据（数据不在网页源码中，json等文件中）：以人人贷网站数据为例

1.这里假设我们爬取的是债券数据，主要包括年利率世型、借款标题、期限、金额和进度这5个字段信息，截图如下：

打开网页源码中，可以发现数据不在网页源码中，按F12抓包分析时，才发现在一个json文件中，如下：

2.获取到json文件的url后，我们就可以爬取对应数据了，这里使用的包与上面类似，因为是json文件，所以还用了json这个包（解析json），主要内容如下：

程序运行截图如下，前羡已经成功抓取到数据：

至此，这里就介绍完了这2种数据的抓取，包括静态数据和动态数据。总的来说，这2个示例不难，都是入门级别的爬虫，网页结构也比较简单，最重要的还是要会进行抓包分析，对页面进行分析提取，后期熟悉后，可以借助scrapy这个框架进行数据的爬取，可以更方便一些，效率更高，当然，如果爬取的页面比较复杂，像验证码、加密等，这时候就需要认真分析了，网上也有一些教程可供参考，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

④ python爬虫项目实战：爬取用户的所有信息，如性别、年龄等

python爬虫项目实战：
爬取糗事网络用户的所有信息，包括用户名、性别、年龄、内容等等。

10个步骤实现项目功能，下面开始实例讲解：
1.导入模块
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加头文件，防止爬取过程被拒绝链接
def qiuShi(url,page):
################### 模拟成高仿度浏览器的行为 ##############

heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zh;q=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################
3.创建soup解析器对象
soup = BeautifulSoup(data,'lxml')
x = 0
4.开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################
5.提取发表的内容信息
############## 发表的内容 #########################
cont = []
data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:

cont.append(content.get_text())

##############end####################################
6.提取搞笑指数
#################搞笑指数##########################
happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 将列表转换成字符串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################
7.提取评论数
############## 评论数 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:

comm.append(comment.get_text())
############end#####################################
8.使用正则表达式提取性别和年龄
######## 获取性别和年龄 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)

9.设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)

print('【用户名】：',name[x],end='')

print('【性别】：',sa[0],' 【年龄】：',sa[1])

print('【内容】：',cont[x])

print('【搞笑指数】：',happy[x],' 【评论数】：',comm[x])
print(' ' 25,' 三八分割线 ',' ' 25)
x += 1
###################end##########################
10.设置循环遍历爬取13页的用户信息
for i in range(1,14):

url = ' https://www.qiushike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
运行结果，部分截图：

⑤ python爬虫有几种方式我知道可以用webdriver，urllib，requests这几种方法。

要全部罗列出来还真挺困难，很多非主流的模块也可以做爬虫。
大致分成3类：
1、类似urllib，requests，需要自行构造请求，组织url关联，抓取到的数据也要自行考虑如何保存。
2、类似selenium,模拟浏览器，大多用于爬取一些动态的网页内容，需要模拟点击，下拉等操作等。
3、类似scrapy 爬虫框架，相对来说更简单，进行一些配置，组织爬取的逻辑即可。

⑥ python爬虫没有用户名密码

python爬虫没有用户名密码可以这样做:
1.1 使用表单登陆
这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。
1.2 使用cookie登陆
使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。
则需要采用cookie登陆。
配置文件config.ini，其中包括用户名密码信息，如果有验证码情况，需要手动登陆一次网站获取cookie信息。
判断登陆成功与否，看生成的html文件中有没有用户信息。

导航:首页 > 编程语言 > 利用python爬取用户信息

利用python爬取用户信息

与利用python爬取用户信息相关的资料