python局域网搜索引擎_用python制作一个搜索引擎

A. 如何用python爬取搜索引擎的结果

我选取的是爬取网络知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。
1.建一个 scrapy 工程：
关于建工程，可以参看这个scrapy入门教程，通过运行:

[python] view plain
scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。
2.具体写.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ，有五类知道起始网页

#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库，若.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库，若.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息，只是由其为跟继续往下爬
else: #否则，将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息，没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

B. 用python制作一个搜索引擎

可能帮不上忙。但别的语言有现成的。用java 的 solr做搜索，索引，分词。只需要配置xml，不用写代码。然后加上前端页面搜索就完成了。用python的scrapy可以做爬虫。你的需求我感觉简单做，都不需要索引，直接查数据库。模糊查询还有一个java的nutch，几乎不用写代码，直接爬虫＋索引＋界面一套都实现好了，什么高亮，快照都有，直接用。不知道你能出多少钱？

C. python自制简易搜索引擎有何思路

python. 如果只是研究算法,做一个原型,当然python优雅多了. 但个人认为,perl和python都不是做搜索引擎的最合适的选择吧.

D. Python 实现一个大数据搜索引擎需要多少行代码

十几万行吧

E. 你都用Python 来做什么

当我知道可以做这些之后，我特别想会。因为论文查阅、答案确认查询；想知道豆瓣8分以上电影，或者穿越类的电影、处理工资数据考核表等。

可以干什么

1、上学吧答案神器主要实现的是无限制获取上学吧网站上的题目答案（绕过 IP 限制），并实现了自动识别验证码，只用输入某个题目的网址，即可一键获取答案，速度非常快。“想要哈哈，自己或者给孩子辅导作业必备啊？”

2、抓取某系统内全部学生姓名学号及选课信息

3、扫描研究生系统上的弱密码用户、模拟登录图书馆系统并自动续借

4、给钓鱼网站批量提交垃圾信息经常会收到含有钓鱼网站链接的短信的，一般都是盗取 QQ 密码的偏多，其实可以使用 Python 来批量给对方的服务器提交垃圾数据（需要先抓包），这样骗子看到信息之后就不知道哪些是真的哪些是假的了，说不定可以解救一部分填了密码的同学。

5、网易云音乐批量下载可以批量下载网易云音乐热歌榜的歌曲，可以自己设定数量，速度非常快。

6、批量下载读者杂志某一期的全部文章

7、获取城市PM2.5浓度和排名

8、爬取某网商品价格信息

你都用 Python 来做什么？

那Python 作为一种功能强大的编程语言，因其简单易学而受到很多开发者的青睐。那么，Python 的应用领域有哪些呢？

Python 的应用领域非常广泛，几乎所有大中型互联网企业都在使用 Python 完成各种各样的任务，例如国外的 Google、Youtube、Dropbox，国内的网络、新浪、搜狐、腾讯、阿里、网易、淘宝、知乎、豆瓣、汽车之家、美团等等。概括起来，Python 的应用领域主要有如下几个。

Web应用开发

Python 经常被用于 Web 开发，尽管目前 PHP、JS 依然是 Web 开发的主流语言，但 Python 上升势头更劲。尤其随着 Python 的 Web 开发框架逐渐成熟（比如 Django、flask、TurboGears、web2py 等等），程序员可以更轻松地开发和管理复杂的 Web 程序。例如，通过 mod_wsgi 模块，Apache 可以运行用 Python 编写的 Web 程序。Python 定义了 WSGI 标准应用接口来协调 HTTP 服务器与基于 Python 的 Web 程序之间的通信。举个最直观的例子，全球最大的搜索引擎 Google，在其网络搜索系统中就广泛使用 Python 语言。另外，我们经常访问的集电影、读书、音乐于一体的豆瓣网（如图 1 所示），也是使用 Python 实现的。

图2Python开发的游戏

除此之外，Python 可以直接调用 Open GL 实现 3D 绘制，这是高性能游戏引擎的技术基础。事实上，有很多 Python 语言实现的游戏引擎，例如 Pygame、Pyglet 以及 Cocos 2d 等。以上也仅是介绍了 Python 应用领域的“冰山一角”，例如，还可以利用 Pygame 进行游戏编程；用 PIL 和其他的一些工具进行图像处理；用 PyRo 工具包进行机器人控制编程，等等。有兴趣的读者，可自行搜索资料进行详细了解。

F. 用python实现网页搜索功能

不知道你知道不知道AJAX，如果知道这个就容易弄了，用jq来POST数据，然后前面只用一个静太页就可以，点搜索就用ajax把搜索请求发过去，点修改就发修改请求
如果在一个页面要实现也可以在下面加一个隐藏的input用来定义是哪个功能，然后后台再根据这个功能名去判断如何处理

导航:首页 > 编程语言 > python局域网搜索引擎

python局域网搜索引擎

与python局域网搜索引擎相关的资料