pythonsgmllib_编写python爬虫类搜索引擎的程序是否有意义

① python 正则表达式匹配多行聊天记录的问题。

如果你所指得[任意文字]的意思是1个或1个以上文字得话
你可以试试下面得语句
p = re.compile(u'.*想知道.+\n.+也想知道.+')

否则你只需要将里面得"+"改为"*"就可以匹配0得情况
也就是下面得语句
p = re.compile(u'.*想知道.*\n.*也想知道.*')

测试代码如下：
>>>a = u"""我想知道。
..... 我也想知道。"""
>>>p.search(a)
>>><_sre.SRE_Match object at 0x1014d5100>

看了你的问题补充，如果你想要查找出字符串中最后匹配的子字符串的话，我目前没想到比较好的办法。
如果一定要用正则的话你可以考虑采用遍历的方式，也就是匹配所有不含abc的情况。
比如说^a, ^b, ^c, ab^c, a^bc....等等等等。不过这样以来正则表达式会显得过于复杂，而且扩展行几乎为0。
如果可以不用正则，那python本身的库就能够实现（可能你嫌处理语句过多或考虑到时间问题而不想用），而且逻辑也较为简单（我觉得是这样）。python的string类中自带有find()和rfind()方法再加上split()方法，合理使用的话应该能找出所有的匹配子字符串。

② 如何用python写一个简单的12306抢票软件

看看这个可以吗功能：1：全自动爬所有车站列表2：爬所有车站之间的所有车次，过滤重复，保存文件爬过程中保存文件遇到http异常，停止继续脚本代码[python]viewplain#coding:utf-8__author__='watsy'#城市对象classcityObject(object):def__init__(self,abbr_pinyin="",full_pinyin="",chinaname="",shortCode=""):self.abbr_pinyin=abbr_pinyinself.full_piyin=full_pinyinself.chinaname=chinanameself.shortCode=shortCode#火车classtrainObject(object):def__init__(self,tid="",code="",start_city="",start_time="",end_city="",end_time="",full_time=""):self.tid=tidself.code=codeself.start_city=start_cityself.start_time=start_timeself.end_city=end_cityself.end_time=end_timeself.full_time=full_timedefget_writestr(self):#return("%s,%s,%s,%s,%s,%s,%s")%(self.tid,self.code,self.start_city.encode('utf-8'),self.start_time,self.end_city.encode('utf-8'),self.end_time,self.full_time)str_return=self.tid+",";str_return+=self.code+",";str_return+=self.start_city+",";str_return+=self.start_time+",";str_return+=self.end_city+",";str_return+=self.end_time+",";str_return+=self.full_time;returnstr_return#火车列表classtrainModel(list):defisExist(self,train):forsub_traininself:ifsub_train.code==train.code:returnTruereturnFalsedefsave(self):train=self[-1]withopen(("%s.txt")%(train.code),"w")aswf:printtrain.get_writestr()wf.write(train.get_writestr().encode('utf-8'))#解析城市defparserCitys(data):parser_citys=[]fororiginal_cityindata:iforiginal_cityandlen(original_city)>1:split_city=original_city.split('|')parser_city=cityObject(split_city[0],split_city[3],split_city[1],split_city[2])parser_citys.append(parser_city)printlen(parser_citys)returnparser_citys#生成url地址defgetBookingTrainListUrl(start_code,end_code,day):strUrl=("/otsquery/query/queryRemanentTicketAction.do?method=queryLeftTicket&")strUrl+=("orderRequest.train_date=%s&")%(day)strUrl+=("orderRequest.from_station_telecode=%s&")%(start_code)strUrl+=("orderRequest.to_station_telecode=%s&")%(end_code)strUrl+=("orderRequest.train_no=&trainPassType=QB&trainClass=QB%23D%23Z%23T%23K%23QT%23&includeStudent=00&seatTypeAndNum=&orderRequest.start_time_str=00%3A00--24%3A00")returnstrUrltrains=trainModel()#解析预定车次列表defparser_booking_str(str_booking):json_book=json.loads(str_booking)datas=json_book['datas']ifdatasandlen(datas)>1:#printdatas.replace("","")trainlist=datas.replace("","").split("\\n")fortrain_strintrainlist:train_str_list=train_str.split(',')iflen(train_str_list)==17:str_id_and_code=train_str_list[1]str_start_city_and_time=train_str_list[2]str_end_city_and_time=train_str_list[3]str_full_time=train_str_list[4]#printstr_id_and_codestr_id=str_id_and_code[13:25]str_code=str_id_and_code[131:-7]#printstr_start_city_and_timeiflen(str_start_city_and_time)>50:str_start_city=str_start_city_and_time[43:-9]else:str_start_city=str_start_city_and_time[0:-9]str_start_time=str_start_city_and_time[-5:]#printstr_end_city_and_timeiflen(str_end_city_and_time)>50:str_end_city=str_end_city_and_time[42:-9]else:str_end_city=str_end_city_and_time[0:-9]str_end_time=str_end_city_and_time[-5:]tobj=trainObject(str_id,str_code,str_start_city,str_start_time,str_end_city,str_end_time,str_full_time)iftrains.isExist(tobj)==False:trains.append(tobj)trains.save()#打开城市列表页面u=urllib2.urlopen("mon/station_name.js?version=1.40")buffer=u.read()u.close()#获取列表buffer=buffer[20:-3]unformatter_citys=buffer.split('@')#得到城市parser_citys=parserCitys(unformatter_citys)city_length=len(parser_citys)today=datetime.date.today()torrow=datetime.timedelta(days=1)today=today+torrowday_str=("%s-%02d-%02d")%(today.year,int(today.month),int(today.day))print(day_str)strPath=os.getcwd()os.chdir("%s/train/"%strPath)foriinrange(1,city_length):forjinrange(0,len(parser_citys)-i):try:print("[%d%d]"%(i,j))sleep(0.09)strurl=getBookingTrainListUrl(parser_citys[i].shortCode,parser_citys[j].shortCode,day_str)url_add_header=urllib2.Request(strurl)url_add_header.add_header('X-Requested-With',"XMLHttpRequest")url_add_header.add_header('Referer',"/otsquery/query/queryRemanentTicketAction.do?method=init")url_add_header.add_header('Content-Type','application/x-www-form-urlencoded')url_add_header.add_header('Connection','keep-alive')resp=urllib2.urlopen(url_add_header)urlread=resp.read()resp.close()parser_booking_str(urlread)excepturllib2.HTTPErroraserr:print("error:[%s]url=[%s]")%(err,strurl)exit(1)os.chdir(strPath)printlen(trains)

③ Python：这有可能是最详细的PIL库基本概念文章了

PIL有如下几个模块：Image模块、ImageChops模块、ImageCrackCode模块、ImageDraw模块、ImageEnhance模块、ImageFile模块、ImageFileIO模块、ImageFilter模块、ImageFont模块、ImageGrab模块、ImageOps模块、ImagePath模块、ImageSequence模块、ImageStat模块、ImageTk模块、ImageWin模块、PSDraw模块

啊啊啊啊怎么这么多模块啊~~~！！！！

别担心我为你一一讲解

Image模块提供了一个相同名称的类，即image类，用于表示PIL图像。

Image模块是PIL中最重要的模块 ，比如创建、打开、显示、保存图像等功能，合成、裁剪、滤波等功能，获取图像属性功能，如图像直方图、通道数等。

Image模块的使用如下：

ImageChops模块包含一些算术图形操作，这些操作可用于诸多目的，比如图像特效，图像组合，算法绘图等等，通道操作只用于8位图像。

ImageChops模块的使用如下：

由于图像im_p是im的复制过来的，所以它们的差为0，图像im_diff显示时为黑图。

ImageCrackCode模块允许用户检测和测量图像的各种特性。 这个模块只存在于PIL Plus包中。

因为我目前安装的PIL中没有包含这个模块。所以就不详细介绍了

ImageDraw模块为image对象提供了基本的图形处理功能。 例如，它可以创建新图像，注释或润饰已存在图像，为web应用实时产生各种图形。

ImageDraw模块的使用如下：

在del draw前后显示出来的图像im是完全一样的，都是在原有图像上画了两条对角线。

原谅我的报错

ImageEnhance模块包括一些用于图像增强的类。它们分别为 Color类、Brightness类、Contrast类和Sharpness类。

ImageEnhance模块的使用如下：

图像im0的亮度为图像im的一半。

ImageFile模块为图像打开和保存功能提供了相关支持功能。另外，它提供了一个Parser类，这个类可以一块一块地对一张图像进行解码（例如，网络联接中接收一张图像）。这个类的接口与标准的sgmllib和xmllib模块的接口一样。

ImageFile模块的使用如下：

因为所打开图像大小大于1024个byte，所以报错：图像不完整。

所以大家想看的可以自行去找一个小一点的图看一下

ImageFileIO模块用于从一个socket或者其他流设备中读取一张图像。 不赞成使用这个模块。 在新的code中将使用ImageFile模块的Parser类来代替它。

ImageFilter模块包括各种滤波器的预定义集合，与Image类的filter方法一起使用。该模块包含这些图像增强的滤器：BLUR，CONTOUR，DETAIL，EDGE_ENHANCE，EDGE_ENHANCE_MORE，EMBOSS，FIND_EDGES，SMOOTH，SMOOTH_MORE和SHARPEN。

ImageFilter模块的使用如下：

ImageFont模块定义了一个同名的类，即ImageFont类。这个类的实例中存储着bitmap字体，需要与ImageDraw类的text方法一起使用。

PIL使用自己的字体文件格式存储bitmap字体。用户可以使用pilfont工具包将BDF和PCF字体描述器（Xwindow字体格式）转换为这种格式。

PIL Plus包中才会支持矢量字体。

ImageGrab模块用于将屏幕上的内容拷贝到一个PIL图像内存中。 当前的版本只在windows操作系统上可以工作。

ImageGrab模块的使用如下：

图像im显示出笔记本当前的窗口内容，就是类似于截图的工具

ImageOps模块包括一些“ready-made”图像处理操作。 它可以完成直方图均衡、裁剪、量化、镜像等操作 。大多数操作只工作在L和RGB图像上。

ImageOps模块的使用如下：

图像im_flip为图像im垂直方向的镜像。

ImagePath模块用于存储和操作二维向量数据。Path对象将被传递到ImageDraw模块的方法中。

ImagePath模块的使用如下：

ImageSequence模块包括一个wrapper类，它为图像序列中每一帧提供了迭代器。

ImageSequence模块的使用如下：

后面两次show()函数调用，分别显示第1张和第11张图像。

ImageStat模块计算一张图像或者一张图像的一个区域的全局统计值。

ImageStat模块的使用如下：

ImageTk模块用于创建和修改BitmapImage和PhotoImage对象中的Tkinter。

ImageTk模块的使用如下：

这个是我一直不太懂的有没有大佬能帮我解决一下在线等~急！

PSDraw模块为Postscript打印机提供基本的打印支持。用户可以通过这个模块打印字体，图形和图像。

PIL中所涉及的基本概念有如下几个： 通道（bands）、模式（mode）、尺寸（size）、坐标系统（coordinate system）、调色板（palette）、信息（info）和滤波器（filters）。

每张图片都是由一个或者多个数据通道构成。PIL允许在单张图片中合成相同维数和深度的多个通道。

以RGB图像为例，每张图片都是由三个数据通道构成，分别为R、G和B通道。而对于灰度图像，则只有一个通道。

对于一张图片的通道数量和名称，可以通过getbands()方法来获取。getbands()方法是Image模块的方法，它会返回一个字符串元组（tuple）。该元组将包括每一个通道的名称。

Python的元组与列表类似，不同之处在于元组的元素不能修改,元组使用小括号，列表使用方括号，元组创建很简单，只需要在括号中添加元素，并使用逗号隔开即可。

getbands()方法的使用如下：

图像的模式定义了图像的类型和像素的位宽。当前支持如下模式：

1：1位像素，表示黑和白，但是存储的时候每个像素存储为8bit。

L：8位像素，表示黑和白。

P：8位像素，使用调色板映射到其他模式。

I：32位整型像素。

F：32位浮点型像素。

RGB：3x8位像素，为真彩色。

RGBA：4x8位像素，有透明通道的真彩色。

CMYK：4x8位像素，颜色分离。

YCbCr：3x8位像素，彩色视频格式。

PIL也支持一些特殊的模式，包括RGBX（有padding的真彩色）和RGBa（有自左乘alpha的真彩色）。

可以通过mode属性读取图像的模式。其返回值是包括上述模式的字符串。

mode 属性 的使用如下：

通过size属性可以获取图片的尺寸。这是一个二元组，包含水平和垂直方向上的像素数。

mode属性的使用如下：

PIL使用笛卡尔像素坐标系统，坐标(0，0)位于左上角。注意：坐标值表示像素的角；位于坐标（0，0）处的像素的中心实际上位于（0.5，0.5）。

坐标经常用于二元组（x，y）。长方形则表示为四元组，前面是左上角坐标。例如：一个覆盖800x600的像素图像的长方形表示为（0，0，800，600）。

调色板模式 ("P")使用一个颜色调色板为每个像素定义具体的颜色值

使用info属性可以为一张图片添加一些辅助信息。这个是字典对象。加载和保存图像文件时，多少信息需要处理取决于文件格式。

info属性的使用如下：

对于将多个输入像素映射为一个输出像素的几何操作，PIL提供了4个不同的采样滤波器：

NEAREST：最近滤波。 从输入图像中选取最近的像素作为输出像素。它忽略了所有其他的像素。

BILINEAR：双线性滤波。 在输入图像的2x2矩阵上进行线性插值。注意：PIL的当前版本，做下采样时该滤波器使用了固定输入模板。

BICUBIC：双立方滤波。 在输入图像的4x4矩阵上进行立方插值。注意：PIL的当前版本，做下采样时该滤波器使用了固定输入模板。

ANTIALIAS：平滑滤波。 这是PIL 1.1.3版本中新的滤波器。对所有可以影响输出像素的输入像素进行高质量的重采样滤波，以计算输出像素值。在当前的PIL版本中，这个滤波器只用于改变尺寸和缩略图方法。

注意：在当前的PIL版本中，ANTIALIAS滤波器是下采样 （例如，将一个大的图像转换为小图） 时唯一正确的滤波器。 BILIEAR和BICUBIC滤波器使用固定的输入模板 ，用于固定比例的几何变换和上采样是最好的。Image模块中的方法resize()和thumbnail()用到了滤波器。

resize()方法的定义为：resize(size, filter=None)=> image

resize()方法的使用如下：

对参数filter不赋值的话，resize()方法默认使用NEAREST滤波器。如果要使用其他滤波器可以通过下面的方法来实现：

thumbnail ()方法的定义为：im.thumbnail(size, filter=None)

thumbnail ()方法的使用如下：

这里需要说明的是，方法thumbnail()需要保持宽高比，对于size=(200,200)的输入参数，其最终的缩略图尺寸为(182， 200)。

对参数filter不赋值的话，方法thumbnail()默认使用NEAREST滤波器。如果要使用其他滤波器可以通过下面的方法来实现：

④ 编写python爬虫，类搜索引擎的程序是否有意义

最初有一个想法，就是用程序来写一个类似搜索引擎的爬虫，然后24小时循环抓取互联网上尽可能多的网站数据。
接着用这个数据来配合做seo。目前已经完成了24小时不间断抓取Url部分。主要是用python做的。其他程序也试过。但是效率太低、要么耗内存。还是python最好。
我的问题是：有没有python方面经验丰富的朋友？能够提供一些方向的？比如正文提取这一部分，这个有现成的模块吗？自己写的话，有点难度。我查过资料，python有爬虫类的模块。但是还没接触过。希望能有前辈可以指导一下。真的，在此谢过了。
还有就是，想问下做这个东西你觉得有意义吗？
【回复】
首先要肯定，你做这个开发是很有意义的。我去年的时候用C#开发过一个蜘蛛抓取系统和正文分析系统，虽然比较粗糙，但是也从过程中感悟到了更深刻SEO优化策略。
例如配额的问题，我在家里自己架服务器然后一个抓一个分析，一切都是以低费用原则展开的，所以带宽自然是不充裕的。这个情况下我就深刻的意识到要抓什么网站，要抓什么类型的页面，时间和线程怎么分配比例，哪些内容是长期不更新的，哪些是具有实时更新意义的等等，通常做SEO的朋友，没办法真的换位去思考这些内容，所以只能等着别分享后再去思考，但是大多数分享也是浅尝则止，具体的细节和原则还是需要自己去摸索和实验的。
另外当我试图去分析HTML的时候，就遇到了前所未有的“无限可能”，因为你的思路几乎是瞬间爆炸了，什么导航条面包屑，页面噪音（代码层面，内容层面），HTML的标准化（涉及到DOM树是否正确的解析），H1优化，寻找最大正文段落等等，太多的细节可以去做分析。
其中我做了一个关于页面噪音的小测试，就是去试图针对一个网站，通过对比HTML获得类目框架。目的就是不想乱七八糟的内容影响我分析正文，所以这里要最基础的去除噪音。这样一来，周边零散的代码就被我视为“低质量的，可忽略的，重要性较低的”的内容。
又例如如何判断页面类型呢？列表页和内容页？不同的页面也会影响二次抓取的频率，因为列表页很显然更具备更新能力，而内容页则相对不更新（主内容框架内不更新，周边框架内容更新，但意义不大）。所以当搜索什么“列车时刻”一类的词，默认列表页会有更大的机会，而当你搜索知识性内容则内容页会有更大的可能性。当然这些都是可以通过系统设置的一个“偏重权重”来实现。
总的来说，当你开发一个搜索引擎的时候，哪怕这个搜索引擎再简单和粗糙，你也会真正的有机会站在搜索引擎的角度去思考SEO，这种思考和感悟是深刻而实际的，远比盲人摸象更有指导意义。
python中，有三个库可以解析html文本，HTMLParser,sgmllib,htmllib。但是更推荐你试试BeautifulSoup。
关于正文的提取，不知道你是要所有正文文本的提取，还是最核心的内容的判断。
如果是提取所有HTML标签内的文本，那么解析器遍历一下，就可以获得一个清单了。
如果你要获得一个“相对最重要正文区域”，那么就需要根据每一个DOM树中的内容量做一个初步的判断，当然如果要更准确无误的判
断正文，还需要其他很多细节的验证操作。
顺着你的话题，我在扩展一下。
我建议大家有时间可以阅读有关“方_法_论”方面的书籍，因为通常，我们在一个行业或一个职位上，所关注和处理的工作，都是一个整
体系统中的一个局部，而是否能尽量多的去理解这个整体系统，对我们的控制能力来说，是至关重要的。所以真正要做好SEO，就不能
仅仅追求SEO的技巧，要更多时间去理解搜索引擎。
淘宝也好，亚马逊（海外）也好，网络也好，都是一个平台，我们无论要做运营，还是SEO，其本质都是充分的获得平台的资源分配。
这个时候谁能站在平台的角度，谁就有更大的竞争力。这就好比产品经理们常常说的，站在用户的角度去开发产品。
你做这个事情，整个过程就是一个极其宝贵的学习过程，这样做的人非常少，你很棒！加油！

导航:首页 > 编程语言 > pythonsgmllib

pythonsgmllib

与pythonsgmllib相关的资料