python如何搜題_如何用Python爬取搜索引擎的結果

1. 如何用python爬取搜索引擎的結果

我選取的是爬取網路知道的html 作為我的搜索源數據，目前先打算做網頁標題的搜索，選用了 Python 的 scrapy 庫來對網頁進行爬取，爬取網頁的標題，url，以及html，用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程，設定四個起始 url ，然後維護一個資料庫，資料庫中有兩個表，一個 infoLib，其中存儲了爬取的主要信息：標題，url ，html；另一個表為urlLib，存儲已經爬取的url，是一個輔助表，在我們爬取每個網頁前，需要先判斷該網頁是否已爬過（是否存在urlLib中）。在數據存儲的過程中，使用了SQL的少量語法，由於我之前學過 MySQL ，這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是：給定初始 url，爬取這個網頁中所有 url，繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面，方便自己以後回顧。
1.建一個 scrapy 工程：
關於建工程，可以參看這個scrapy入門教程，通過運行:

[python] view plain
scrapy startproject ***

在當前目錄下建一個scrapy 的項目，然後在 spiders 的子目錄下建立一個 .py文件，該文件即是爬蟲的主要文件，注意：其中該文件的名字不能與該工程的名字相同，否則，之後調用跑這個爬蟲的時候將會出現錯誤，見ImportError。
2.具體寫.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為「知道」，在執行爬蟲時對應指令將為： scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的，1s/次，可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ，有五類知道起始網頁

#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫，若.db中 infoLib表不存在，則建立該表，其中主鍵是自增的 id（用於引擎的docId）,下一列是文章的標題，然後是url，最後是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫，若.db中urlLib表不存在，則建立該表，其中只存了 url，保存已經爬過的url，之所以再建一個表，是猜測表的主鍵應該使用哈希表存儲的，查詢速度較快，此處其實也可以用一個外鍵將兩個表關聯起來

2. .py文件中的parse函數：

.py文件中的parse函數將具體處理url返回的 response，進行解析，具體代碼中說明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url，並不是直接使用函數獲取，那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是，我們對重復的 start_url 中的網址將仍然進行爬取，而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息，只是由其為跟繼續往下爬
else: #否則，將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的（因為深入start_url之後的網頁都會先進行判斷，在爬取，在下面的for循環中判斷）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存資料庫的更新

print "-----------------------------------------------" #輸出提示信息，沒啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁，進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)

2. python不會的題去哪搜

Github、leetcode、牛客網、實驗樓、和鯨社區等網站。
Leetcode是一個專業的刷題網站，題目數量非常之多，你可以用Python等多種語言去解題，也有會相應參考答案，其中不乏大廠面試真題。
牛客網和leetcode類似，也是針對面試筆試場景的刷題網站，裡面有騰訊、位元組、阿里等各個大廠的面試真題，適合有這方面需求的同學去針對性刷題。
實驗樓不同於leetcode和牛客網，它是一個實操代碼項目的練習網站，提供了包括Python在內的各種編程語言練習項目，包括像Python入門、Djangoweb編程、Pandas數據分析、自動化運維等，適合對項目練習有需求的同學。

3. python123答案在哪找

在App上下載網路，在網路上找

4. python tk中搜索問題

輸入框是 Entry，應用程序要取得用戶的信息，輸入框是必不可少的。

輸入框比較重要的一個函數：

get:返回值即輸入框的內容

比如e是一個輸入框，e['show']='*'就變成了密碼框

小例子：用戶登陸窗口，成功失敗均有返回

示例代碼

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
from Tkinter import *
root = Tk()

#按扭調用的函數，
def reg():
User = e_user.get()
Pwd = e_pwd.get()
len_user = len(User)
len_pwd = len(Pwd)
if User=='111' and Pwd == '222':
l_msg['text']='登陸成功'
else:
l_msg['text']='用戶名或密碼錯誤'
e_user.delete(0,len_user)
e_pwd.delete(0,len_pwd)

#第一行，用戶名標簽及輸入框
l_user =Label(root,text='用戶名：')
l_user.grid(row=0,sticky=W)
e_user =Entry(root)
e_user.grid(row=0,column=1,sticky=E)

#第二行，密碼標簽及輸入框
l_pwd = Label(root,text='密碼：')
l_pwd.grid(row=1,sticky=W)
e_pwd = Entry(root)
e_pwd['show']='*'
e_pwd.grid(row=1,column=1,sticky=E)

#第三行登陸按扭，command綁定事件
b_login = Button(root,text='登陸',command=reg)
b_login.grid(row=2,column=1,sticky=E)

#登陸是否成功提示
l_msg = Label(root,text='')
l_msg.grid(row=3)

root.mainloop()

效果圖：

成功登陸登陸失敗

示例代碼：

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
from Tkinter import *
#定義一個root主窗口
root = Tk()
#定義兩個變數，用於判斷復選框狀態
box_1 = False
box_2 = False
#列表，用於存放選中內容
List_Content = []

def click_c1():
global box_1
#復選框被選中，box_1置為True
box_1 = not box_1
if box_1:
List_Content.append('Windows')
l['text']=List_Content
else:
List_Content.remove('Windows')
l['text']=List_Content

def click_c2():
global box_2
box_2 = not box_2
if box_2:
List_Content.append('Linux')
l['text']=List_Content
else:
List_Content.remove('Linux')
l['text']=List_Content
#定義兩個復選框，並綁定相關事件
ck1 = Checkbutton(root,text='Windows',command=click_c1)
ck1.grid(row=0,column=1)
ck2 = Checkbutton(root,text='Linux',command=click_c2)
ck2.grid(row=1,column=1)

l_com = Label(root,text='已選中：')
l_com.grid(row=2,column=0)

l = Label(root,text='')
l.grid(row=2,column=1)
root.mainloop()

5. 如何用python實現在爬取到某網頁搜索框中，並輸入文字後，自動搜索信息並抓取

網路爬蟲只能根據你指定的url爬取網頁的html代碼，至於你想要包含指定內容的網頁的話，只能先爬取下來網頁，然後在對頁面內容進行匹配(正則，也有開源工具)找到你想要的內容就可以了!順便說一句網路爬蟲不能根據關鍵字來爬取網頁!

6. 哪個軟體能搜python編程題

CSDN和牛客都可以搜python編程題，裡面還有很多別的編程語言，非常好用

7. python改錯題怎麼找答案

首先屬入代碼：
1、defNicoqish(x):k=x**3#數字的三次方i=1#奇數whilei<=k:s=0#s是這些奇數的和，必須從0開始、j=i#j>=i、whiles<=k:#奇數的和要小於等於整數的三次方。s+=j、ifs==k:returni,j#i是起始位置,j是結束位置j+=2#必須是奇數，要加2。i+=2。
2、if__name__=='__main__':n=int(input())print('i^3=1')foriinrange(2,n+1):result=Nicoqish(i)#print(result)print('{}^{}='.format(i,3),end='')print('+'.join(map(str,range(result[0],result[1]+2,2))))#要包括result[1]，所以范圍要加個2。
3、輸入：S。
4、輸出i^3=1。2^3=3+53^3=7+9+114^3=1+3+5+7+9+11+13+155^3=21+23+25+27+29。

8. 大學搜題醬可以搜python嗎

大學搜題醬可以搜python嗎？答：個人認為可以，可以去搜搜一下試試，大部分都可以。

9. 頭歌python的答案在哪裡找

CSDN上找。
進入公眾號主頁，點擊右上角搜索按鈕，輸入作業題目關鍵字，獲取答案。CSDN是功能齊全，大部分題目都可以搜到。
Python提供了高效的高級數據結構，還能簡單有效地面向對象編程。Python語法和動態類型，以及解釋型語言的本質，使它成為多數平台上寫腳本和快速開發應用的編程語言，隨著版本的不斷更新和語言新功能的添加，逐漸被用於獨立的、大型項目的開發。

導航:首頁 > 編程語言 > python如何搜題

python如何搜題

與python如何搜題相關的資料