導航:首頁 > 編程語言 > weiboapipython

weiboapipython

發布時間:2023-09-19 05:43:05

1. 如何通過python調用新浪微博的API

1.下載SDK

使用python調用API的話,首先要去下一個Python的SDK,sinaweibopy

連接地址在此: http://michaelliao.github.com/sinaweibopy/

可以使用pip很快的導入,github連接里的wiki也有入門的使用方法,很容易看懂。

2.理解新浪微博的授權機制

在調用API之前,首先要搞懂什麼叫OAuth 2,即新浪微博的授權機制,

連接在此: http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

3.在新浪微博注冊應用

每個人都可以通過新浪微博開發者平台注冊自己的應用,我注冊的是站內應用。注冊後會為每個應用分配唯一的app key 和 app secret,這在上文提到的授權機制中需要用到,相當與每個應用的標示吧。

至此,我們可以嘗試寫代碼調用新浪微博的API啦。

4.簡單的調用API實例

參考了往上很多資料和文檔,寫了一個簡單的調用過程。

# _*_ coding: utf-8 _*_
from weibo import APIClient
import webbrowser
APP_KEY = 」
APP_SECRET = 」
CALLBACK_URL = 」
#這個是設置回調地址,必須與那個」高級信息「里的一致
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
url = client.get_authorize_url()
# TODO: redirect to url
#print url
webbrowser.open_new(url)
# 獲取URL參數code:
code = 『『
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
r = client.request_access_token(code)
access_token = r.access_token # 新浪返回的token,類似abc123xyz456
expires_in = r.expires_in # token過期的UNIX時間:http://zh.wikipedia.org/wiki/UNIX%E6%97%B6%E9%97%B4
# TODO: 在此可保存access token
client.set_access_token(access_token, expires_in)

print client.friendships.friends.bilateral.ids.get(uid = 12345678)

通過以上的代碼,我實現了調用相互關注API的調用,即查找與某個id的用戶相互關注的人的列表。

其中,APP_KEY和APP_SECRET就是前文中分配給每個應用的信息,回調地址在每個應用的高級信息中可以看到,需要自己設置,不過隨便設置一下就好

比較惡心的是code的獲取,我一開始看sinaweibopy的文檔的時候也沒弄懂是什麼意思,如上面的代碼所示,url得到的是一個授權的網址,我們通過

webbrowser.open_new(url)
這行代碼打開瀏覽器跳轉到授權的界面,然後觀察所在界面的網址,會顯示大概如下一樣的格式:

http://apps.weibo.com/sayarywei?code=

看到了嗎?
問號後面有一個code=……的一個東西,把等號後面的字元串拷貝下來賦給code就可以了,但是每次運行程序是code不是一成不變的,也就是說每次都
要有這么一個手動獲取的過程,我覺得很麻煩,以後自己再研究一下,實現自動獲取code就好了。如果能有哪位大神告訴我,感激不盡~

好了,得到正確的code之後就可以完成授權認證,也就可以調用微博的API啦,至於如何在Python下調用,我拷貝一下sinaweibopy上的介紹:

首先查看新浪微博API文檔,例如:

API:statuses/user_timeline

請求格式:GET

請求參數:

source:string,採用OAuth授權方式不需要此參數,其他授權方式為必填參數,數值為應用的AppKey?。

access_token:string,採用OAuth授權方式為必填參數,其他授權方式不需要此參數,OAuth授權後獲得。

uid:int64,需要查詢的用戶ID。

screen_name:string,需要查詢的用戶昵稱。

(其它可選參數略)

調用方法:將API的「/」變為「.」,根據請求格式是GET或POST,調用get ()或post()並傳入關鍵字參數,但不包括source和access_token參數:

r = client.statuses.user_timeline.get(uid=123456)
for st in r.statuses:
print st.text

若為POST調用,則示例代碼如下:

r = client.statuses.update.post(status=u'測試OAuth 2.0發微博')

若需要上傳文件,傳入file-like object參數,示例代碼如下:

f = open('/Users/michael/test.png', 'rb')
r = client.statuses.upload.post(status=u'測試OAuth 2.0帶圖片發微博', pic=f)
f.close() # APIClient不會自動關閉文件,需要手動關閉

請注意:上傳的文件必須是file-like object,不能是str,因為無法區分一個str是文件還是欄位。可以通過StringIO把一個str包裝成file-like object。

2. 怎樣用python爬新浪微博大V所有數據

我是個微博重度用戶,工作學習之餘喜歡刷刷timeline看看有什麼新鮮事發生,也因此認識了不少高質量的原創大V,有分享技術資料的,比如好東西傳送門;有時不時給你一點人生經驗的,比如石康;有高產的段子手,比如銀教授;有黃圖黃段子小能手,比如阿良哥哥木木蘿希木初犬餅…

好吧,我承認,爬黃圖黃段子才是我的真實目的,前三個是掩人耳目的…(捂臉,跑開)

另外說點題外話,我一開始想使用Sina Weibo API來獲取微博內容,但後來發現新浪微博的API限制實在太多,大家感受一下:

iTerm

小問題:在我的測試中,有的時候會出現圖片下載失敗的問題,具體原因還不是很清楚,可能是網速問題,因為我宿舍的網速實在太不穩定了,當然也有可能是別的問題,所以在程序根目錄下面,我還生成了一個userid_imageurls的文本文件,裡面存儲了爬取的所有圖片的下載鏈接,如果出現大片的圖片下載失敗,可以將該鏈接群一股腦導進迅雷等下載工具進行下載。

另外,我的系統是OSX EI Capitan10.11.2,Python的版本是2.7,依賴庫用sudo pip install XXXX就可以安裝,具體配置問題可以自行stackoverflow,這里就不展開講了。

下面我就給出實現代碼(嚴肅臉)

Python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

  • #-*-coding:utf8-*-

    import re

    import string

    import sys

    import os

    import urllib

    import urllib2

    from bs4 import BeautifulSoup

    import requests

    from lxml import etree

    reload(sys)

    sys.setdefaultencoding('utf-8')

    if(len(sys.argv) >=2):

    user_id = (int)(sys.argv[1])

    else:

    user_id = (int)(raw_input(u"請輸入user_id: "))

    cookie = {"Cookie": "#your cookie"}

    url = 'd?filter=1&page=1'%user_id

    html = requests.get(url, cookies = cookie).content

    selector = etree.HTML(html)

    pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value'])

    result = ""

    urllist_set = set()

    word_count = 1

    image_count = 1

    print u'爬蟲准備就緒...'

    for page in range(1,pageNum+1):

    #獲取lxml頁面

    url = 'hu/%d?filter=1&page=%d'%(user_id,page)

    lxml = requests.get(url, cookies = cookie).content

    #文字爬取

    selector = etree.HTML(lxml)

    content = selector.xpath('//span[@class="ctt"]')

    for each in content:

    text = each.xpath('string(.)')

    if word_count >= 4:

    text = "%d :"%(word_count-3) +text+" "

    else :

    text = text+" "

    result = result + text

    word_count += 1

    #圖片爬取

    soup = BeautifulSoup(lxml, "lxml")

    urllist = soup.find_all('a',href=re.compile(r'^mblog/oripic',re.I))

    first = 0

    for imgurl in urllist:

    urllist_set.add(requests.get(imgurl['href'], cookies = cookie).url)

    image_count +=1

    fo = open("/Users/Personals/%s"%user_id, "wb")

    fo.write(result)

    word_path=os.getcwd()+'/%d'%user_id

    print u'文字微博爬取完畢'

    link = ""

    fo2 = open("/Users/Personals/%s_imageurls"%user_id, "wb")

    for eachlink in urllist_set:

    link = link + eachlink +" "

    fo2.write(link)

    print u'圖片鏈接爬取完畢'

    if not urllist_set:

    print u'該頁面中不存在圖片'

    else:

    #下載圖片,保存在當前目錄的pythonimg文件夾

    image_path=os.getcwd()+'/weibo_image'

    if os.path.exists(image_path) is False:

    os.mkdir(image_path)

    x=1

    for imgurl in urllist_set:

    temp= image_path + '/%s.jpg' % x

    print u'正在下載第%s張圖片' % x

    try:

    urllib.urlretrieve(urllib2.urlopen(imgurl).geturl(),temp)

    except:

    print u"該圖片下載失敗:%s"%imgurl

    x+=1

    print u'原創微博爬取完畢,共%d條,保存路徑%s'%(word_count-4,word_path)

    print u'微博圖片爬取完畢,共%d張,保存路徑%s'%(image_count-1,image_path)

  • 3. 如何通過python調用新浪微博的API來爬取數據

    先上結論,通過公開的api如果想爬到某大v的所有數據,需要滿足以下兩個條件:
    1、在你的爬蟲開始運行時,該大v的所有微博發布量沒有超過回溯查詢的上限,新浪是2000,twitter是3200。
    2、爬蟲程序必須不間斷運行。
    新浪微博的api基本完全照搬twitter,其中介面的參數特性與底層的NoSQL密不可分,建議先看點Nosql資料庫的設計理念有助於更好的理解api設計。
    一般來說,如果決定爬某個大v,第一步先試獲取該用戶的基本信息,中間會包含一條最新的status,記下其中的id號作為基準,命名為baseId。
    介面中最重要的兩個參數:
    since_id:返回ID比since_id大的微博(即比since_id時間晚的微博),默認為0。
    max_id:返回ID小於或等於max_id的微博,默認為0。
    出於各種原因,獲取statuses的介面,固定為按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假設該微博第一天上線,就一個用戶,發了一百條,id是1到100。而你在該用戶發了第50條的時候開始運行的爬蟲,即baseId=50。

    閱讀全文

    與weiboapipython相關的資料

    熱點內容
    銀行卡簡訊消息如何加密 瀏覽:242
    文件夾怎麼不重名 瀏覽:406
    linuxyum安裝java 瀏覽:250
    java數字計算 瀏覽:286
    java按鈕文字 瀏覽:641
    python列表互換位置 瀏覽:337
    sw怎麼刪除定向命令 瀏覽:757
    php包含數組元素 瀏覽:666
    安卓系統開發app需要什麼 瀏覽:730
    ssh2項目源碼 瀏覽:288
    三星提供了什麼伺服器地址 瀏覽:903
    阿里雲輕量應用伺服器60元 瀏覽:160
    微信公眾號支付java 瀏覽:217
    蝦皮用的什麼伺服器 瀏覽:144
    拍照的app哪個好用 瀏覽:890
    方舟編譯器2022 瀏覽:770
    一般情況下源碼注釋量 瀏覽:743
    18號命令 瀏覽:871
    我的世界如何將材質包加在伺服器里 瀏覽:413
    縫紉pdf 瀏覽:408