导航:首页 > 编程语言 > python搜索引擎

python搜索引擎

发布时间:2022-01-20 05:01:10

① 利用python能否开发网络搜索引擎

当然能拉 最着名的搜索引擎google就是用python实现的
python是面向对象的 结构清晰 适合做大的项目
python可以做任何事(包括搜索引擎)

我现在也在用python
留下联系方式交流一下经验阿

② 如何用Python爬取搜索引擎的结果

我选取的是爬取网络知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 Python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个表为urlLib,存储已经爬取的url,是一个辅助表,在我们爬取每个网页前,需要先判断该网页是否已爬过(是否存在urlLib中)。在数据存储的过程中,使用了SQL的少量语法,由于我之前学过 MySQL ,这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是:给定初始 url,爬取这个网页中所有 url,继续对网页中的 url 递归爬取。代码逐段解析在下面,方便自己以后回顾。
1.建一个 scrapy 工程:
关于建工程,可以参看这个scrapy入门教程,通过运行:

[python] view plain
scrapy startproject ***

在当前目录下建一个scrapy 的项目,然后在 spiders 的子目录下建立一个 .py文件,该文件即是爬虫的主要文件,注意:其中该文件的名字不能与该工程的名字相同,否则,之后调用跑这个爬虫的时候将会出现错误,见ImportError。
2.具体写.py文件:

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”,在执行爬虫时对应指令将为: scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的,1s/次,可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ,有五类知道起始网页

#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库,若.db中 infoLib表不存在,则建立该表,其中主键是自增的 id(用于引擎的docId),下一列是文章的标题,然后是url,最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库,若.db中urlLib表不存在,则建立该表,其中只存了 url,保存已经爬过的url,之所以再建一个表,是猜测表的主键应该使用哈希表存储的,查询速度较快,此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数:

.py文件中的parse函数将具体处理url返回的 response,进行解析,具体代码中说明:

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url,并不是直接使用函数获取,那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是,我们对重复的 start_url 中的网址将仍然进行爬取,而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息,只是由其为跟继续往下爬
else: #否则,将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的(因为深入start_url之后的网页都会先进行判断,在爬取,在下面的for循环中判断)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息,没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页,进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

③ 毕业设计中怎样用python写一个搜索引擎的分

1、 网络连接需要持续连接(persistent connection),DNS解析的瓶颈(先查本地DNS缓存)

实现方法:基于python httplib(对http1.1完成对持续连接的支持(python的httplib完全支持http1.1),如果不是http1.1那么可以使用urlopen对其进行一次连接)并对其socket对象进行控制,关键是加入对读取DNS本地缓存(在我的机制下这个根本就不是主要问题可以暂时忽略),以及有settimeout(Igloo)(搞定,就用setdefaulttimeout())的支持(或者利用自己的DNS服务器,进行优化处理),以及对sock对象的settimeout进行设置,防止长时间的等待一个有可能连接不上的web服务器.(要测试一下连接模块和DNS解析模块在访问不存在url在默认情况下的时间消耗)对站点的ip解析出来后就直接用ip进行连接而避免了重复调用DNS解析.例子:socket.gethostbyname("www.163.com")

网络连接下载模块非常重要,需要精心反复测试,因为有可能碰到一些不规范的web服务器,如果没有加以考虑会使整个线程崩溃。

2、 多线程:机器任务的分配及站点任务的分配。

实现方法:(在某台机器上实现,在对本机内存cpu的消耗情况判断后对机器任务进行分配;在对和站点的连接情况进行判断后对站点任务进行分配)
机器任务的分配:对于机器负担的情况调整在一个机器开的线程的个数。(在关闭线程时注意要先让线程完成当前运行任务)
站点任务的分配:就是某个机器对一个站点开的线程的个数的分配。(同样是要注意关闭线程时先让其完成当前任务)

3、 对web文件树遍历过程更好的控制,对web文件树在广度优先遍历时层次的判断。(整个网络是一个图,而某个站点的模型更接近于一棵树)

实现方法:在每个地址进入队列时加一个层次号,那么要遍历第n层的话那么遍历到第一个n+1就停止读取。

4、 利用robotparser解析robots.txt

5、 单个机器spider的作用:

a) 同2多线程3文件树的遍历

b) 将获取的外部url发回中央控制器,并从中央控制器取回新的外部url。

6、 中央控制器的作用:

a) 观察各机器的状态包括:cpu、内存、线程、站点、网络流量
b) 观察对外整体网络流量和连接状况,可以根据网络状况来调节timeout。

c) 接受各个机器发送过来的外部url并对每个url的重复数字计数。然后分配到各个机器。(分配时要用爬行策略控制器对外部url进行排序来分配,Igloo利用Page Rank,我们可以使用最简单的重复越多重要系数就越高来进行排序)

d) 分布式URL分配算法:Igloo1.2的二级哈希映射算法(集中式分配算法那个中央控制器容易成为系统瓶颈)复习哈希算法,还有就是对url是否访问过的判断(Igloo使用的是URL Trie滞后合并策略)。可以使用Berkeley DB作为URL Trie的替代品。两种实现方式的比较:

i. 现在的想法:(面向站点,信息颗粒大)外部链接只是保存主机名比如:www.163.com, 站内访问用解析好的ip地址维持连接,用相对链接来得到各个页面,这样就要维护一个外部链接列表,几个站点的链接列表。优点:节省内存,对某个站点的信息获取全面,对站点的出现频率统计,排序,重要站点先取。 缺点:对链接的获取的全面性得不到保证,而且不能获取更多的重要页面,每个站点的重要页面也不会很多。
ii. 老方案:(面向页面,信息颗粒小)所有连接一视同仁。缺点:浪费资源,对单一站点的获取不一定全面。优点:可以得到全面的链接图,可以使用Page Rank对列表进行排序,页面更重要就在最前面。

7、 解析html(超级链接的提取)搞定(用python的sgmllib)缺点:速度太慢(可能会造成瓶颈,要好好包装好,以后有机会换掉它)

④ 求一python写的简单的搜索引擎

可能帮不上忙。

但别的语言有现成的。

java 的 solr做搜索,索引,分词。只需要配置xml,不用写代码。
然后加上前端页面搜索就完成了。

用python的scrapy可以做爬虫。

你的需求我感觉简单做,都不需要索引,直接查数据库。模糊查询

还有一个java的nutch,几乎不用写代码,直接爬虫+索引+界面 一套都实现好了,什么高亮,快照都有,直接用。

不知道你能出多少钱?

⑤ 用python实现网页搜索功能

不知道你知道不知道AJAX,如果知道这个就容易弄了,用jq来POST数据,然后前面只用一个静太页就可以,点搜索就用ajax把搜索请求发过去,点修改就发修改请求
如果在一个页面要实现也可以在下面加一个隐藏的input用来定义是哪个功能,然后后台再根据这个功能名去判断如何处理

⑥ python基于内容的搜索引擎怎么开发

...这个免费是不会给你的。。相信我没错的。

⑦ 用python制作一个搜索引擎

可能帮不上忙。但别的语言有现成的。用java 的 solr做搜索,索引,分词。只需要配置xml,不用写代码。然后加上前端页面搜索就完成了。用python的scrapy可以做爬虫。你的需求我感觉简单做,都不需要索引,直接查数据库。模糊查询还有一个java的nutch,几乎不用写代码,直接爬虫+索引+界面 一套都实现好了,什么高亮,快照都有,直接用。不知道你能出多少钱?

⑧ Python能做搜索引擎么

我用Python写了一个搜索引擎

网页链接

⑨ python自制简易搜索引擎有何思路

python. 如果只是研究算法,做一个原型,当然python优雅多了. 但个人认为,perl和python都不是做搜索引擎的最合适的选择吧.

⑩ 编写python爬虫,类搜索引擎的程序是否有意义

最初有一个想法,就是用程序来写一个类似搜索引擎的爬虫,然后24小时循环抓取互联网上尽可能多的网站数据。
接着用这个数据来配合做seo。目前已经完成了24小时不间断抓取Url部分。主要是用python做的。其他程序也试过。但是效率太低、要么耗内存。还是python最好。
我的问题是:有没有python方面经验丰富的朋友? 能够提供一些方向的? 比如正文提取这一部分,这个有现成的模块吗? 自己写的话,有点难度。我查过资料,python有爬虫类的模块。但是还没接触过。希望能有前辈可以指导一下。真的,在此谢过了。
还有就是,想问下做这个东西你觉得有意义吗?
【回复】
首先要肯定,你做这个开发是很有意义的。我去年的时候用C#开发过一个蜘蛛抓取系统和正文分析系统,虽然比较粗糙,但是也从过程中感悟到了更深刻SEO优化策略。
例如配额的问题,我在家里自己架服务器然后一个抓一个分析,一切都是以低费用原则展开的,所以带宽自然是不充裕的。这个情况下我就深刻的意识到要抓什么网站,要抓什么类型的页面,时间和线程怎么分配比例,哪些内容是长期不更新的,哪些是具有实时更新意义的等等,通常做SEO的朋友,没办法真的换位去思考这些内容,所以只能等着别分享后再去思考,但是大多数分享也是浅尝则止,具体的细节和原则还是需要自己去摸索和实验的。
另外当我试图去分析HTML的时候,就遇到了前所未有的“无限可能”,因为你的思路几乎是瞬间爆炸了,什么导航条面包屑,页面噪音(代码层面,内容层面),HTML的标准化(涉及到DOM树是否正确的解析),H1优化,寻找最大正文段落等等,太多的细节可以去做分析。
其中我做了一个关于页面噪音的小测试,就是去试图针对一个网站,通过对比HTML获得类目框架。目的就是不想乱七八糟的内容影响我分析正文,所以这里要最基础的去除噪音。这样一来,周边零散的代码就被我视为“低质量的,可忽略的,重要性较低的”的内容。
又例如如何判断页面类型呢?列表页和内容页?不同的页面也会影响二次抓取的频率,因为列表页很显然更具备更新能力,而内容页则相对不更新(主内容框架内不更新,周边框架内容更新,但意义不大)。所以当搜索什么“列车时刻”一类的词,默认列表页会有更大的机会,而当你搜索知识性内容则内容页会有更大的可能性。当然这些都是可以通过系统设置的一个“偏重权重”来实现。
总的来说,当你开发一个搜索引擎的时候,哪怕这个搜索引擎再简单和粗糙,你也会真正的有机会站在搜索引擎的角度去思考SEO,这种思考和感悟是深刻而实际的,远比盲人摸象更有指导意义。
python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。但是更推荐你试试BeautifulSoup。
关于正文的提取,不知道你是要所有正文文本的提取,还是最核心的内容的判断。
如果是提取所有HTML标签内的文本,那么解析器遍历一下,就可以获得一个清单了。
如果你要获得一个“相对最重要正文区域”,那么就需要根据每一个DOM树中的内容量做一个初步的判断,当然如果要更准确无误的判
断正文,还需要其他很多细节的验证操作。
顺着你的话题,我在扩展一下。
我建议大家有时间可以阅读有关“方_法_论”方面的书籍,因为通常,我们在一个行业或一个职位上,所关注和处理的工作,都是一个整
体系统中的一个局部,而是否能尽量多的去理解这个整体系统,对我们的控制能力来说,是至关重要的。所以真正要做好SEO,就不能
仅仅追求SEO的技巧,要更多时间去理解搜索引擎。
淘宝也好,亚马逊(海外)也好,网络也好,都是一个平台,我们无论要做运营,还是SEO,其本质都是充分的获得平台的资源分配。
这个时候谁能站在平台的角度,谁就有更大的竞争力。这就好比产品经理们常常说的,站在用户的角度去开发产品。
你做这个事情,整个过程就是一个极其宝贵的学习过程,这样做的人非常少,你很棒!加油!

阅读全文

与python搜索引擎相关的资料

热点内容
做设计做程序员适合的电脑 浏览:778
网站有源码和没有源码的区别 浏览:678
如何自学开发app 浏览:593
修电梯pdf 浏览:349
政务云是不是提供虚拟服务器 浏览:57
在哪里看每个app用了多长时间 浏览:635
学程序员要英语四级吗 浏览:131
java视频录制 浏览:756
口头指派式命令 浏览:472
php开发工程师面试题 浏览:954
linux内核源码pdf 浏览:66
mc命令方块怎么提取 浏览:367
有关程序员的五大魔咒你中了几个 浏览:204
本地文件如何上传linux服务器 浏览:17
传奇资源网站源码 浏览:377
f26app怎么下载 浏览:120
程序员与酒 浏览:439
php政府网站源码 浏览:912
前端面试常问算法 浏览:153
pythonopen可以打开文件夹吗 浏览:635