⑴ pic_ext啥用 python爬取百度貼吧圖片
稀里糊塗,不知所雲
⑵ 想用python寫個在某個論壇自動回帖頂帖的程序,需要用到什麼模塊
以python 2.7為例。
首先肯定會用到: urllib urllib2 cookielib。頂貼一般也就是回復一個帖子了,那麼要像伺服器發送一個特定的http請求,用python構造出這個請求再發就行了,具體構造成什麼樣,可以用firebug等工具看實際發帖過程中發到伺服器的請求。
還有可能用到:re htmllib BeautifulSoup json 等。用來解析獲取的web頁面,用正則表達式或者專用於html解析的包來分析頁面,在頁面里找東西(比如想要搶沙發的話,可能會找沒有回復的帖子)。
更多可能用到的包:如PIL,PyQt 等。 PIL用於處理驗證碼圖片,比如二值化。一說到驗證碼,問題就復雜了,可能想要人工輸入驗證碼的話會用到GUI的包比如Qt,還有可能比較弱的驗證碼用PIL做簡單的圖像處理就能識別了,如何處理比較復雜的驗證碼可以單獨開一個問題了,可能會涉及到人工智慧方面的東西。
⑶ 如何用 Python 腳本模擬頂貼
首先下載安裝python,建議安裝2.7版本以上,3.0版本以下,由於3.0版本以上不向下兼容,體驗較差。
打開文本編輯器,推薦editplus,notepad等,將文件保存成 .py格式,editplus和notepad支持識別python語法。
腳本第一行一定要寫上 #!usr/bin/python
表示該腳本文件是可執行python腳本
如果您的python目錄不在usr/bin目錄下,則替換成當前python執行程序的目錄
編寫完腳本之後注意調試、可以直接用editplus調試。調試方法可自行網路。腳本寫完之後,打開CMD命令行,前提是python 已經被加入到環境變數中,如果沒有加入到環境變數,請網路
在CMD命令行中,輸入 「python」 + 「空格」,即 」python 「;
將已經寫好的腳本文件拖拽到當前游標位置,然後敲回車運行即可!
⑷ 求助,如何抓取百度貼吧樓層中的回復Python
打開一個帖子,按F12,在控制台里輸入 $('cc div')
可以看看這篇文章:http://webmagic.io/docs/zh/posts/chx-cases/js-render-page.html
⑸ Python 有哪些好的學習資料或者博客
推薦Full Stack Python 有各種python資源匯總,從基礎入門到各種框架web應用開發和部署,再到高級的ORM、Docker都有。以下是Full Stack Python 上總結的一些教程,我拙劣的翻譯了以下,並調整(調整順序並刪了部分內容)了一下:
1、無開發經驗,初學python
如果你不會其他語言,python是你的第一門語言:
A Byte of Python (簡明python教程,這個有中文版簡明 Python 教程)是非常好的入門教程。
Learn Python the Hard Way (Zed Shaw的免費教程,個人強烈推薦)
Python, Django and Flask教程: Real Python (收費,需購買)
short 5 minute video 解釋了為什麼你的出發點應該是要完成什麼項目,或者解決什麼問題,而不是為了學一門語言而去學一門語言。
Dive into Python 3 是一本開源的python教程,提供HTML和PDF版。
Code Academy 有一個為純新手准備的 Python track 。
Introction to Programming with Python 介紹了基本語法和控制結構等,提供了大量代碼示例。
O'Reilly 的書 Think Python: How to Think Like a Computer Scientist 是非常好的入門教材。
Python Practice Book 是一本python練習的書,幫你掌握python基本語法。
想通過做實際項目來學編程?看看這個 this list of 5 programming project for Python beginners(5個適合python初學者的編程項目)。
Reddit的創造者之一寫了一個教程,如何用python構建一個博客網站(use Python to build a blog.),使非常好的web編程入門。
The fullstack python的作者寫了一篇關於如何學習python的文章learning Python 。
2、有開發經驗 ,初學Python
Learn Python in y minutes ,讓你在幾分鍾內快速上手,有個大概了解。
Python for you and me , python的語法,語言的主要結構等,還包含來Flask Web App的教程。
The Hitchhiker』s Guide to Python
How to Develop Quality Python Code ,如何開發高質量的python代碼
3、進階
The Python Ecosystem: An Introction , 關於python生態系統,虛擬機、python包管理器pip、虛擬環境virtualenv、還有很多進階主題
The Python Subreddit ,就是python的reddit節點(相當於中國的貼吧),是一個活躍的社區,可以交流討論,解決問題等。
Good to Great Python Reads ,收集進階和高級python文章,講了很多細微差異和python語言本身的細節。
博客 Free Python Tips ,有很多python和python生態系統的文章。
Python Books ,有一些免費的Python, Django, 數據分析等方面的書。
Python IAQ: Infrequently Asked Questions ,關於python 經常問到的問題。
4、視頻,屏幕錄像,演示文稿等
一些技術交流會議的視頻錄像: best Python videos
5、python的包
awesome-python ,收集了python各種非常好用非常酷的包,確實非常awesome,讓作者相見恨晚( I wish I had this page when I was just getting started)。
easy-python
6、 播客(Podcasts)
Talk Python to Me , 關注使用python的人們和組織,每一期都會邀請一些開發者談談他們的工作等。
Podcast.__init__ ,關於python和讓python更牛B的人們。
7、新聞資訊(可訂閱)
Python Weekly , 最新的python文章、視頻、項目、資訊 。
PyCoder's Weekly ,和python weekly類似。
Import Python
⑹ 想用python寫個在某個論壇自動回帖頂帖的程序,需要用到什麼模塊
以python 2.7為例。
首先肯定會用到: urllib urllib2
cookielib。頂貼一般也就是回復一個帖子了,那麼要像伺服器發送一個特定的http請求,用python構造出這個請求再發就行了,具體構造成什
么樣,可以用firebug等工具看實際發帖過程中發到伺服器的請求。
還有可能用到:re htmllib BeautifulSoup json 等。用來解析獲取的web頁面,用正則表達式或者專用於html解析的包來分析頁面,在頁面里找東西(比如想要搶沙發的話,可能會找沒有回復的帖子)。
更
多可能用到的包:如PIL,PyQt 等。
PIL用於處理驗證碼圖片,比如二值化。一說到驗證碼,問題就復雜了,可能想要人工輸入驗證碼的話會用到GUI的包比如Qt,還有可能比較弱的驗證碼用
PIL做簡單的圖像處理就能識別了,如何處理比較復雜的驗證碼可以單獨開一個問題了,可能會涉及到人工智慧方面的東西。
⑺ 求助,怎麼利用Python爬取貼吧帖子樓中樓的
樓中樓裡面沒辦法看原貼,不過我可以教你一個辦法,你可以在樓中樓里回復一下,再從你的回復貼裡面找原貼就行了。
⑻ python新手代碼是什麼
python新手代碼是:
1、shuizitiqu.py——————數字提取。
2、socker_ping.py——————長ping 檢測網路狀態。
3、spider_tieba.py——————爬取網路貼吧圖片。
4、tianqi.py——————微信自動回復天氣。
5、ticket_searchTrain.py——————12306火車票查詢。
6、ticket_stations.py——————12306火車站點。
7、txt.py——————txt文件抽取。
8、weixinhuifu.py——————微信自動回復天氣。
9、xlsfile.py——————xls文件提取。
⑼ 有朋友寫過用python定時頂貼的爬蟲嗎
如果你熟悉python的話,你可以自己編爬蟲來抓取評價;如果覺得時間成本高,可以用採集工具,市面上採集功能有幾個,比如集搜客、網路礦工、狂采等,可以用集搜客
因為是免費的,在官網可以下現成的規則,淘寶天貓搜索列表、商品詳細等;再簡單一點,付費定製數據了。
⑽ 怎麼用Python讀取本地網站的內容
思路如下:
使用urllib2庫,打開頁面,獲取頁面內容,再用正則表達式提取需要的數據就可以了。
下面給你個示例代碼供參考,從網路貼吧抓取帖子內容,並保存在文件中。
#-*-coding:utf-8-*-
importurllib2
importre
url='
page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<ahref=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1class="core_title_txt"title="(.*?)"')
content_re=re.compile('<divid="post_content_d*"class="d_post_contentj_d_post_content">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')
content=re.findall(content_re,page)
withopen('%s.txt'%title,'w')asf:
foriincontent:
i=re.sub(none_re,'',i)
i=re.sub(br_re,' ',i)
f.write(i.encode('utf-8').strip()+' ')