① 我的fft python中的错误问题,怎么解决
Traceback(mostrecentcalllast):File"",line26,infoofor(event,elem)inxmlit:File"C:\Python32\lib\xml\etree\ElementTree.py",line1314,in__next__self._parser.feed(data)File"C:\Python32\lib\xml\etree\ElementTree.py",line1668,infeedself._parser.Parse(data,0)UnicodeEncodeError:'utf-8'codeccan'tencodecharacter'\ud800'inposition16383:surrogatesnotallowed由于出现错误之间for循环迭代,我可以包装一个唯一的地方try块以外的for循环,这是我无法继续到下一个XML是我的一个解决方案的优先事项如下:接收,而不必引发异常的未必然,有效的Unicode字符串作为文本。收到一个有效的Unicode字符串的字符无效更换或取出。跳过的无效字符CodeGo.net,并移动到下一个。我怎么能这些解决方案中,而不必和修改ElementTree编写自己?本文地址:CodeGo.net/9075227/-------------------------------------------------------------------------------------------------------------------------1.首先,所有的东西对可能这里无关紧要。尝试仅仅通过返回的文件f=open(filename,encoding='utf-8')如果是的话,解决的法是重写默认编码错误处理程序,如在文档解释说:错误是一个可选的字符串,用于指定编码和解码的错误是如何被handled,Äìthis不能以二进制方式。经过“strict”提出一个ValueError异常,如果有一个编码错误(没有默认有作用),或者通过“忽略”忽略错误。(请注意CodeGo.net,忽略编码错误会导致数据丢失。)'代替'的标记(如“?”)插入那里的数据。写作时,“xmlcharrefreplace”(替换为相应的XML字符引用)或“backslashreplace'(用反斜杠转义序列替换)可以在已注册codecs.register_error()其他错误处理也是有效的。所以,你可以这样做:f=open(filename,encoding='utf-8',errors='replace')这符合你的第二个priority,Äîthe无效字符将被替换'?'。有没有法来满足你的首要任务,有没有法来表示“不必然,有效的Unicode字符串”.a个Unicode字符串,顾名思义,对Unicode代码点的序列,这就是Python中如何对待str类型。如果你有无效的UTF-8,并希望把它转换成一个字符串,你需要指定应该如何变成string,Äîand那是什么,errors是。你可以,或者,以二进制方式打开该文件,息事宁人为UTF-8作为bytes对象,而不是试图把它变成一个Unicodestr反对,但你可以在与工作的APIbytes对象。(我相信lxml的ElementTree能真正做到这一点,但内置一不可,但不要说)。但即使你这样做,它不会让你很远.xML代码本身将试图解释无效的UTF-8,然后它需要知道你想要做什么样的错误,而这将是很难说明它的更远了。最后一点:因为发生错误的for循环迭代之间,唯一的地方,我可以换一个try块外循环,这是我无法继续到下一个XML那么,你实际上并不具有for环;你可以把它变成一个while环路明确next调用。所有你需要做这个,我知道你正在做wrong,Äîbut那就是你正在处理一个破碎库的标志,它是唯一可用的解决方法的一个标志。这一点:for(event,elem)inxmlit:#line26doStuffWith(event,elem)实际上等同于:whileTrue:try:event,elem=next(xmlit)exceptStopIteration:breakdoStuffWith(event,elem)而现在,有添加的地方try,Äîalthough你甚至不真正需要;你可以附加其他except在现有try。问题是,你有什么打算在这里做?谁也不能保证iterator就可以继续它抛出一个异常后。事实上,所有的最简单的方法来创建iterator将不能够这样做。你可以为自己测试是否这是真的在这种情况下。在极少数情况下,当你需要这个,而它实际上帮助,你可能想要把它包起来。像这样:defskip_exceptions(it):whileTrue:try:yieldnext(it)exceptStopIteration:raiseexceptExceptionase:logging.info('{}'.format(e))然后,你只是做:for(event,elem)inskip_exceptions(xmlit):doStuffWith(event,elem)本文标题:如何解决Unicode的错误xml.etree.ElementTree.iterparse()?本文地址:CodeGo.net/9075227/1.sqlite3的ORDERBY需要时间2.只有在Emacs的Python命令行为什么UnicodeEncodeError长大的吗?3.Memcached的不尊重的元组排序4.解析HTML使用QWebElement,如何提取图像?5.在__init__中声明的变量似乎是类实例之间共享?6.Python2.6中我有两个文件。SysDump.py和li7.为什么一个特定的导入看到其他导入?Python2.6中8.创建具有PyGTK的屏幕保护程序的使用XScreenSaver9.与目录工作|python10.从字符串转换为元组和QUOT;\\"在python
② Python笔记:命令行参数解析
有些时候我们需要通过命令行将参数传递给脚本,C语言中有个getopt()方法,python中也有个类似的命令行参数解析方法getopt()。python也提供了比getopt()更简洁的argparse方法。另外,sys模块也可以实现简单的参数解析,本文将对这3种命令行参数解析方法简要介绍。
sys.argv是传入的参数列表,sys.argv[0]是当前python脚本的名称,sys.argv[1]表示第一个参数,以此类推。
命令行运行:
可以看到传入的参数通过sys.argv来获取,它就是一个参数列表。
python的getopt与C语言的的getopt()函数类似。相比于sys模块,支持长参数和短参数,并对参数解析赋值。但它需要结合sys模块进行参数解析,语法格式如下:
短参数为单个英文字母,如果必须赋值需要在后面加英文冒号( : ),长参数一般为字符串(相比短参数,更能说明参数含义),如果必须赋值需要在后面加等号( = )。
命令行运行:
注意:短参数(options)和长参数(long_options)不需要一一对应,可以任意顺序,也可以只有短参数或者只有长参数。
argparse模块提供了很多可以设置的参数,例如参数的默认值,帮助消息,参数的数据类型等。argparse类主要包括ArgumentParser、add_argument和parse_args三个方法。
下面介绍这三个函数的使用方法。
argparse默认提供了 -h | --help 参数:
命令行运行:
下面列出部分参数:
下面来添加参数:
命令行运行:
parse_args() 方法用于解析参数,在前面的示例代码中使用parse_args方法来提取参数值,对于无效或者错误的参数会打印错误信息和帮助信息:
命令行运行:
本文介绍了Python的三种命令行参数解析方法sys.argv、getopt和argparse,可以根据自己的需要进行选择,getopt和argparse两种方法相比来说,建议选择argparse,代码量更少更简洁。更详细的使用方法参考官方文档:
--THE END--
③ 如何用Python爬取搜索引擎的结果
我选取的是爬取网络知道的html 作为我的搜索源数据,目前先打算做网页标题的搜索,选用了 Python 的 scrapy 库来对网页进行爬取,爬取网页的标题,url,以及html,用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程,设定四个起始 url ,然后维护一个数据库,数据库中有两个表,一个 infoLib,其中存储了爬取的主要信息:标题,url ,html;另一个表为urlLib,存储已经爬取的url,是一个辅助表,在我们爬取每个网页前,需要先判断该网页是否已爬过(是否存在urlLib中)。在数据存储的过程中,使用了SQL的少量语法,由于我之前学过 MySQL ,这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是:给定初始 url,爬取这个网页中所有 url,继续对网页中的 url 递归爬取。代码逐段解析在下面,方便自己以后回顾。
1.建一个 scrapy 工程:
关于建工程,可以参看这个scrapy入门教程,通过运行:
[python] view plain
scrapy startproject ***
在当前目录下建一个scrapy 的项目,然后在 spiders 的子目录下建立一个 .py文件,该文件即是爬虫的主要文件,注意:其中该文件的名字不能与该工程的名字相同,否则,之后调用跑这个爬虫的时候将会出现错误,见ImportError。
2.具体写.py文件:
[python] view plain
import scrapy
from scrapy import Request
import sqlite3
class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”,在执行爬虫时对应指令将为: scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的,1s/次,可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ,有五类知道起始网页
#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库,若.db中 infoLib表不存在,则建立该表,其中主键是自增的 id(用于引擎的docId),下一列是文章的标题,然后是url,最后是html
#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库,若.db中urlLib表不存在,则建立该表,其中只存了 url,保存已经爬过的url,之所以再建一个表,是猜测表的主键应该使用哈希表存储的,查询速度较快,此处其实也可以用一个外键将两个表关联起来
2. .py文件中的parse函数:
.py文件中的parse函数将具体处理url返回的 response,进行解析,具体代码中说明:
[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url,并不是直接使用函数获取,那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html
# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是,我们对重复的 start_url 中的网址将仍然进行爬取,而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息,只是由其为跟继续往下爬
else: #否则,将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的(因为深入start_url之后的网页都会先进行判断,在爬取,在下面的for循环中判断)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
self.connDataBase.commit() #保存数据库的更新
print "-----------------------------------------------" #输出提示信息,没啥用
for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页,进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,则对其继续进行爬取
yield Request(url = sel, callback=self.parse)
④ python用suds 调用webservice方法的时候报错。
其实用Python进行webservice通信进行数据交换,就是拼接字符串,没必要用第三方的库。
⑤ Python 命令行(三)- 命令行参数解析
Python 标准库中的 argparse 可以根据程序中的定义,从 sys.argv 中解析参数,并且自动生成帮助信息。
使用 add_argument 方法为应用程序添加参数,其中 add_argument 方法的参数比较多,这也使得 argparse 库的使用不够简洁,后续将继续为大家介绍更好用的命令行参数解析的开源库 click 。
下面是 add_argument 方法的参数及含义总结:
解析参数需要使用 ArgumentParser 实例的 parse_args 方法,此方法返回一个 NameSpace 对象;可以通过访问 NameSpace 对象属性的方式获取参数值。
下面是一个简单的例子:通过 parser.server 获取 --host 选项的值,通过 parse.boolean_switch 获取 -t 选项的值。
查看帮助信息:
参数默认值:
指定参数:
打印帮助信息:
打印版本信息:
传递参数: