weiboapipython_怎样用python爬新浪微博大V所有数据

1. 如何通过python调用新浪微博的API

1.下载SDK

使用python调用API的话，首先要去下一个Python的SDK，sinaweibopy

连接地址在此： http://michaelliao.github.com/sinaweibopy/

可以使用pip很快的导入，github连接里的wiki也有入门的使用方法，很容易看懂。

2.理解新浪微博的授权机制

在调用API之前，首先要搞懂什么叫OAuth 2，即新浪微博的授权机制，

连接在此： http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

3.在新浪微博注册应用

每个人都可以通过新浪微博开发者平台注册自己的应用，我注册的是站内应用。注册后会为每个应用分配唯一的app key 和 app secret,这在上文提到的授权机制中需要用到，相当与每个应用的标示吧。

至此，我们可以尝试写代码调用新浪微博的API啦。

4.简单的调用API实例

参考了往上很多资料和文档，写了一个简单的调用过程。

# _*_ coding: utf-8 _*_
from weibo import APIClient
import webbrowser
APP_KEY = ”
APP_SECRET = ”
CALLBACK_URL = ”
#这个是设置回调地址，必须与那个”高级信息“里的一致
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
url = client.get_authorize_url()
# TODO: redirect to url
#print url
webbrowser.open_new(url)
# 获取URL参数code:
code = ‘‘
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
r = client.request_access_token(code)
access_token = r.access_token # 新浪返回的token，类似abc123xyz456
expires_in = r.expires_in # token过期的UNIX时间：http://zh.wikipedia.org/wiki/UNIX%E6%97%B6%E9%97%B4
# TODO: 在此可保存access token
client.set_access_token(access_token, expires_in)

print client.friendships.friends.bilateral.ids.get(uid = 12345678)

通过以上的代码，我实现了调用相互关注API的调用，即查找与某个id的用户相互关注的人的列表。

其中，APP_KEY和APP_SECRET就是前文中分配给每个应用的信息，回调地址在每个应用的高级信息中可以看到，需要自己设置，不过随便设置一下就好

比较恶心的是code的获取，我一开始看sinaweibopy的文档的时候也没弄懂是什么意思，如上面的代码所示，url得到的是一个授权的网址，我们通过

webbrowser.open_new(url)
这行代码打开浏览器跳转到授权的界面，然后观察所在界面的网址，会显示大概如下一样的格式：

http://apps.weibo.com/sayarywei?code=

看到了吗？
问号后面有一个code=……的一个东西，把等号后面的字符串拷贝下来赋给code就可以了，但是每次运行程序是code不是一成不变的，也就是说每次都
要有这么一个手动获取的过程，我觉得很麻烦，以后自己再研究一下，实现自动获取code就好了。如果能有哪位大神告诉我，感激不尽~

好了，得到正确的code之后就可以完成授权认证，也就可以调用微博的API啦，至于如何在Python下调用，我拷贝一下sinaweibopy上的介绍：

首先查看新浪微博API文档，例如：

API：statuses/user_timeline

请求格式：GET

请求参数：

source：string，采用OAuth授权方式不需要此参数，其他授权方式为必填参数，数值为应用的AppKey?。

access_token：string，采用OAuth授权方式为必填参数，其他授权方式不需要此参数，OAuth授权后获得。

uid：int64，需要查询的用户ID。

screen_name：string，需要查询的用户昵称。

（其它可选参数略）

调用方法：将API的“/”变为“.”，根据请求格式是GET或POST，调用get ()或post()并传入关键字参数，但不包括source和access_token参数：

r = client.statuses.user_timeline.get(uid=123456)
for st in r.statuses:
print st.text

若为POST调用，则示例代码如下：

r = client.statuses.update.post(status=u'测试OAuth 2.0发微博')

若需要上传文件，传入file-like object参数，示例代码如下：

f = open('/Users/michael/test.png', 'rb')
r = client.statuses.upload.post(status=u'测试OAuth 2.0带图片发微博', pic=f)
f.close() # APIClient不会自动关闭文件，需要手动关闭

请注意：上传的文件必须是file-like object，不能是str，因为无法区分一个str是文件还是字段。可以通过StringIO把一个str包装成file-like object。

2. 怎样用python爬新浪微博大V所有数据

我是个微博重度用户，工作学习之余喜欢刷刷timeline看看有什么新鲜事发生，也因此认识了不少高质量的原创大V，有分享技术资料的，比如好东西传送门；有时不时给你一点人生经验的，比如石康；有高产的段子手，比如银教授；有黄图黄段子小能手，比如阿良哥哥木木萝希木初犬饼…

好吧，我承认，爬黄图黄段子才是我的真实目的，前三个是掩人耳目的…（捂脸，跑开）

另外说点题外话，我一开始想使用Sina Weibo API来获取微博内容，但后来发现新浪微博的API限制实在太多，大家感受一下：

iTerm

小问题：在我的测试中，有的时候会出现图片下载失败的问题，具体原因还不是很清楚，可能是网速问题，因为我宿舍的网速实在太不稳定了，当然也有可能是别的问题，所以在程序根目录下面，我还生成了一个userid_imageurls的文本文件，里面存储了爬取的所有图片的下载链接，如果出现大片的图片下载失败，可以将该链接群一股脑导进迅雷等下载工具进行下载。

另外，我的系统是OSX EI Capitan10.11.2，Python的版本是2.7，依赖库用sudo pip install XXXX就可以安装，具体配置问题可以自行stackoverflow，这里就不展开讲了。

下面我就给出实现代码（严肃脸）

Python

#-*-coding:utf8-*-

import re

import string

import sys

import os

import urllib

import urllib2

from bs4 import BeautifulSoup

import requests

from lxml import etree

reload(sys)

sys.setdefaultencoding('utf-8')

if(len(sys.argv) >=2):

user_id = (int)(sys.argv[1])

else:

user_id = (int)(raw_input(u"请输入user_id: "))

cookie = {"Cookie": "#your cookie"}

url = 'd?filter=1&page=1'%user_id

html = requests.get(url, cookies = cookie).content

selector = etree.HTML(html)

pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value'])

result = ""

urllist_set = set()

word_count = 1

image_count = 1

print u'爬虫准备就绪...'

for page in range(1,pageNum+1):

#获取lxml页面

url = 'hu/%d?filter=1&page=%d'%(user_id,page)

lxml = requests.get(url, cookies = cookie).content

#文字爬取

selector = etree.HTML(lxml)

content = selector.xpath('//span[@class="ctt"]')

for each in content:

text = each.xpath('string(.)')

if word_count >= 4:

text = "%d :"%(word_count-3) +text+" "

else :

text = text+" "

result = result + text

word_count += 1

#图片爬取

soup = BeautifulSoup(lxml, "lxml")

urllist = soup.find_all('a',href=re.compile(r'^mblog/oripic',re.I))

first = 0

for imgurl in urllist:

urllist_set.add(requests.get(imgurl['href'], cookies = cookie).url)

image_count +=1

fo = open("/Users/Personals/%s"%user_id, "wb")

fo.write(result)

word_path=os.getcwd()+'/%d'%user_id

print u'文字微博爬取完毕'

link = ""

fo2 = open("/Users/Personals/%s_imageurls"%user_id, "wb")

for eachlink in urllist_set:

link = link + eachlink +" "

fo2.write(link)

print u'图片链接爬取完毕'

if not urllist_set:

print u'该页面中不存在图片'

else:

#下载图片,保存在当前目录的pythonimg文件夹下

image_path=os.getcwd()+'/weibo_image'

if os.path.exists(image_path) is False:

os.mkdir(image_path)

x=1

for imgurl in urllist_set:

temp= image_path + '/%s.jpg' % x

print u'正在下载第%s张图片' % x

try:

urllib.urlretrieve(urllib2.urlopen(imgurl).geturl(),temp)

except:

print u"该图片下载失败:%s"%imgurl

x+=1

print u'原创微博爬取完毕，共%d条，保存路径%s'%(word_count-4,word_path)

print u'微博图片爬取完毕，共%d张，保存路径%s'%(image_count-1,image_path)

3. 如何通过python调用新浪微博的API来爬取数据

先上结论，通过公开的api如果想爬到某大v的所有数据，需要满足以下两个条件：
1、在你的爬虫开始运行时，该大v的所有微博发布量没有超过回溯查询的上限，新浪是2000，twitter是3200。
2、爬虫程序必须不间断运行。
新浪微博的api基本完全照搬twitter，其中接口的参数特性与底层的NoSQL密不可分，建议先看点Nosql数据库的设计理念有助于更好的理解api设计。
一般来说，如果决定爬某个大v，第一步先试获取该用户的基本信息，中间会包含一条最新的status，记下其中的id号作为基准，命名为baseId。
接口中最重要的两个参数：
since_id：返回ID比since_id大的微博（即比since_id时间晚的微博），默认为0。
max_id：返回ID小于或等于max_id的微博，默认为0。
出于各种原因，获取statuses的接口，固定为按id降序排列（scan_index_forward=false），即最新的statuses返回在前。假设该微博第一天上线，就一个用户，发了一百条，id是1到100。而你在该用户发了第50条的时候开始运行的爬虫，即baseId=50。

导航:首页 > 编程语言 > weiboapipython

weiboapipython

与weiboapipython相关的资料