1. 如何用python爬取搜索引擎的结果
我选取的是爬取网络知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 Python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个表为urlLib,存储已经爬取的url,是一个辅助表,在我们爬取每个网页前,需要先判断该网页是否已爬过(是否存在urlLib中)。在数据存储的过程中,使用了SQL的少量语法,由于我之前学过 MySQL ,这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是:给定初始 url,爬取这个网页中所有 url,继续对网页中的 url 递归爬取。代码逐段解析在下面,方便自己以后回顾。
1.建一个 scrapy 工程:
关于建工程,可以参看这个scrapy入门教程,通过运行:
[python] view plain
scrapy startproject ***
在当前目录下建一个scrapy 的项目,然后在 spiders 的子目录下建立一个 .py文件,该文件即是爬虫的主要文件,注意:其中该文件的名字不能与该工程的名字相同,否则,之后调用跑这个爬虫的时候将会出现错误,见ImportError。
2.具体写.py文件:
[python] view plain
import scrapy
from scrapy import Request
import sqlite3
class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”,在执行爬虫时对应指令将为: scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的,1s/次,可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ,有五类知道起始网页
#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库,若.db中 infoLib表不存在,则建立该表,其中主键是自增的 id(用于引擎的docId),下一列是文章的标题,然后是url,最后是html
#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库,若.db中urlLib表不存在,则建立该表,其中只存了 url,保存已经爬过的url,之所以再建一个表,是猜测表的主键应该使用哈希表存储的,查询速度较快,此处其实也可以用一个外键将两个表关联起来
2. .py文件中的parse函数:
.py文件中的parse函数将具体处理url返回的 response,进行解析,具体代码中说明:
[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url,并不是直接使用函数获取,那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html
# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是,我们对重复的 start_url 中的网址将仍然进行爬取,而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息,只是由其为跟继续往下爬
else: #否则,将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的(因为深入start_url之后的网页都会先进行判断,在爬取,在下面的for循环中判断)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
self.connDataBase.commit() #保存数据库的更新
print "-----------------------------------------------" #输出提示信息,没啥用
for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页,进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,则对其继续进行爬取
yield Request(url = sel, callback=self.parse)
2. python不会的题去哪搜
Github、leetcode、牛客网、实验楼、和鲸社区等网站。
Leetcode是一个专业的刷题网站,题目数量非常之多,你可以用Python等多种语言去解题,也有会相应参考答案,其中不乏大厂面试真题。
牛客网和leetcode类似,也是针对面试笔试场景的刷题网站,里面有腾讯、字节、阿里等各个大厂的面试真题,适合有这方面需求的同学去针对性刷题。
实验楼不同于leetcode和牛客网,它是一个实操代码项目的练习网站,提供了包括Python在内的各种编程语言练习项目,包括像Python入门、Djangoweb编程、Pandas数据分析、自动化运维等,适合对项目练习有需求的同学。
3. python123答案在哪找
在App上下载网络,在网络上找
4. python tk中搜索问题
输入框是 Entry,应用程序要取得用户的信息,输入框是必不可少的。
输入框比较重要的一个函数:
get:返回值即输入框的内容
比如e是一个输入框,e['show']='*'就变成了密码框
小例子:用户登陆窗口,成功失败均有返回
示例代码
#!/usr/bin/env python
# _*_ coding:utf-8 _*_
from Tkinter import *
root = Tk()
#按扭调用的函数,
def reg():
User = e_user.get()
Pwd = e_pwd.get()
len_user = len(User)
len_pwd = len(Pwd)
if User=='111' and Pwd == '222':
l_msg['text']='登陆成功'
else:
l_msg['text']='用户名或密码错误'
e_user.delete(0,len_user)
e_pwd.delete(0,len_pwd)
#第一行,用户名标签及输入框
l_user =Label(root,text='用户名:')
l_user.grid(row=0,sticky=W)
e_user =Entry(root)
e_user.grid(row=0,column=1,sticky=E)
#第二行,密码标签及输入框
l_pwd = Label(root,text='密码:')
l_pwd.grid(row=1,sticky=W)
e_pwd = Entry(root)
e_pwd['show']='*'
e_pwd.grid(row=1,column=1,sticky=E)
#第三行登陆按扭,command绑定事件
b_login = Button(root,text='登陆',command=reg)
b_login.grid(row=2,column=1,sticky=E)
#登陆是否成功提示
l_msg = Label(root,text='')
l_msg.grid(row=3)
root.mainloop()
效果图:
成功登陆 登陆失败
示例代码:
#!/usr/bin/env python
# _*_ coding:utf-8 _*_
from Tkinter import *
#定义一个root主窗口
root = Tk()
#定义两个变量,用于判断复选框状态
box_1 = False
box_2 = False
#列表,用于存放选中内容
List_Content = []
def click_c1():
global box_1
#复选框被选中,box_1置为True
box_1 = not box_1
if box_1:
List_Content.append('Windows')
l['text']=List_Content
else:
List_Content.remove('Windows')
l['text']=List_Content
def click_c2():
global box_2
box_2 = not box_2
if box_2:
List_Content.append('Linux')
l['text']=List_Content
else:
List_Content.remove('Linux')
l['text']=List_Content
#定义两个复选框,并绑定相关事件
ck1 = Checkbutton(root,text='Windows',command=click_c1)
ck1.grid(row=0,column=1)
ck2 = Checkbutton(root,text='Linux',command=click_c2)
ck2.grid(row=1,column=1)
l_com = Label(root,text='已选中:')
l_com.grid(row=2,column=0)
l = Label(root,text='')
l.grid(row=2,column=1)
root.mainloop()
5. 如何用python实现在爬取到某网页搜索框中,并输入文字后,自动搜索信息并抓取
网络爬虫只能根据你指定的url爬取网页的html代码,至于你想要包含指定内容的网页的话,只能先爬取下来网页,然后在对页面内容进行匹配(正则,也有开源工具)找到你想要的内容就可以了!顺便说一句网络爬虫不能根据关键字来爬取网页!
6. 哪个软件能搜python编程题
CSDN和牛客都可以搜python编程题,里面还有很多别的编程语言,非常好用
7. python改错题怎么找答案
首先属入代码:
1、defNicoqish(x):k=x**3#数字的三次方i=1#奇数whilei<=k:s=0#s是这些奇数的和,必须从0开始、j=i#j>=i、whiles<=k:#奇数的和要小于等于整数的三次方。s+=j、ifs==k:returni,j#i是起始位置,j是结束位置j+=2#必须是奇数,要加2。i+=2。
2、if__name__=='__main__':n=int(input())print('i^3=1')foriinrange(2,n+1):result=Nicoqish(i)#print(result)print('{}^{}='.format(i,3),end='')print('+'.join(map(str,range(result[0],result[1]+2,2))))#要包括result[1],所以范围要加个2。
3、输入:S。
4、输出i^3=1。2^3=3+53^3=7+9+114^3=1+3+5+7+9+11+13+155^3=21+23+25+27+29。
8. 大学搜题酱可以搜python吗
大学搜题酱可以搜python吗?答:个人认为可以,可以去搜搜一下试试,大部分都可以。
9. 头歌python的答案在哪里找
CSDN上找。
进入公众号主页,点击右上角搜索按钮,输入作业题目关键字,获取答案。CSDN是功能齐全,大部分题目都可以搜到。
Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。