❶ 如何在 linux 上使用 python 读取 word 文件信息
第一步:获取doc文件的xml组成文件
import zipfiledef get_word_xml(docx_filename):
with open(docx_filename) as f:
zip = zipfile.ZipFile(f)
xml_content = zip.read('word/document.xml')
return xml_content
第二步:解析xml为树形数据结构
from lxml import etreedef get_xml_tree(xml_string):
return etree.fromstring(xml_string)
第三步:读取word内容:
def _itertext(self, my_etree):
"""Iterator to go through xml tree's text nodes"""
for node in my_etree.iter(tag=etree.Element):
if self._check_element_is(node, 't'):
yield (node, node.text)def _check_element_is(self, element, type_char):
word_schema = '99999'
return element.tag == '{%s}%s' % (word_schema,type_char)
❷ linux 怎么删除scrapy
一.安装scrapy
pip install Scrapy 由于scrapy相关依赖较多,因此在安装过程中可能遇到如下问题:
1.ImportError: No mole named w3lib.http
解决:pip install w3lib
2.ImportError: No mole named twisted
解决:pip install twisted
3.ImportError: No mole named lxml.html
解决:pip install lxml
4.error: libxml/xmlversion.h: No such file or directory
解决:apt-get install libxml2-dev libxslt-dev
apt-get install python-lxml
5.ImportError: No mole named cssselect
解决:pip install cssselect
6.ImportError: No mole named OpenSSL
解决:pip install pyOpenSSL
以上基本涵盖安装过程中可能出现的依赖问题,如有遗漏待发现后补充
使用scrapy --version 如显示出版本信息则安装成功
❸ 如何在linux ubuntu 下安装scapy pyx
最近在学习爬虫,早就听说Python写爬虫极爽(貌似pythoner说python都爽,不过也确实,python的类库非常丰富,不用重复造轮子),还有一个强大的框架Scrapy,于是决定尝试一下。
要想使用Scrapy第一件事,当然是安装Scrapy,尝试了Windows和Ubuntu的安装,本文先讲一下 Ubuntu的安装,比Windows的安装简单太多了。抽时间也会详细介绍一下怎么在Windows下进行安装。
官方介绍,在安装Scrapy前需要安装一系列的依赖.
* Python 2.7: Scrapy是Python框架,当然要先安装Python ,不过由于Scrapy暂时只支持 Python2.7,因此首先确保你安装的是Python 2.7
* lxml:大多数Linux发行版自带了lxml
* OpenSSL:除了windows之外的系统都已经提供
* Python Package: pip and setuptools. 由于现在pip依赖setuptools,所以安装pip会自动安装setuptools
有上面的依赖可知,在非windows的环境下安装 Scrapy的相关依赖是比较简单的,只用安装pip即可。Scrapy使用pip完成安装。
检查Scrapy依赖是否安装
你可能会不放心自己的电脑是否已经安装了,上面说的已经存在的依赖,那么你可以使用下面的方法检查一下,本文使用的是Ubuntu 14.04。
检查Python的版本
$ python --version
如果看到下面的输出,说明Python的环境已经安装,我这里显示的是Python 2.7.6,版本也是2.7的满足要求。如果没有出现下面的信息,那么请读者自行网络安装Python,本文不介绍Python的安装(网上一搜一堆)。
检查lxml和OpenSSL是否安装
假设已经安装了Python,在控制台输入python,进入Python的交互环境。
然后分别输入import lxml和import OpenSSL如果没有报错,说明两个依赖都已经安装。
安装python-dev和libevent
python-dev是linux上开发python比较重要的工具,以下的情况你需要安装
* 你需要自己安装一个源外的python类库, 而这个类库内含需要编译的调用python api的c/c++文件
* 你自己写的一个程序编译需要链接libpythonXX.(a|so)
libevent是一个时间出发的高性能的网络库,很多框架的底层都使用了libevent
上面两个库是需要安装的,不然后面后报错。使用下面的指令安装
$sudo apt-get install python-dev
$sudo apt-get install libevent-dev
安装pip
因为Scrapy可以使用pip方便的安装,因此我们需要先安装pip,可以使用下面的指令安装pip
$ sudo apt-get install python-pip
使用pip安装Scrapy
使用下面的指令安装Scrapy。
$ sudo pip install scrapy
记住一定要获得root权限,否则会出现下面的错误。
至此scrapy安装完成,使用下面的命令检查Scrapy是否安装成功。
$ scrapy version
显示如下结果说明安装成功,此处的安装版本是1.02
❹ python安装不上一些库怎么办
python自带pip包管理工具,默认采用pypi的源路径,可以使用还源镜像的方式安装第三方库,来保证python库的安装。
解决办法:
1.解决办法网上一般就是用http://www.lfd.uci.e/~gohlke/pythonlibs/#lxml这个网站直接下载一些whl文件进行pip安装,
小技巧:进入whl所在文件,一般人都是在cmd中各种cd,其实直接打开所在文件,按着shift加鼠标右键就出现打开命令窗口,初始位置默认当前文件所在位置。
还有就是win64系统安装的32位的python,那么在进行whl文件安装时需要选择32位的文件,不是64位的。
安装scrapy安装不上但是网站没有whl文件,那么将其安装所依赖的库都用pip或whl安装上再次pip安装scrapy即可
2.windows下安装python建议安装www.continuum.io/downloads这个网站的Anaconda for windows,这个版本的python与linux下的python使用的c编译器相同,相比较不会轻易碰到安装库不成功。
3.pip install jupyter安装这个库,安装上之后,执行jupyter notebook将会打开本地的一个网页,右边有个new,点击后出现一个列表,再次点击python3之后跳转后就可以编写代码了,默认安装了一些requests,scrapy之类的库的。
推荐课程:零基础入门学习Python(小甲鱼)
❺ 怎样查看linux有没有安装lxml
要用Python处理XML数据,由于之前用过lxml,因此打算采用lxml库。找出原来的写好的脚本发现不能运行,没有lxml模块,看来得自己动手。记得原来用的时候模似安装挺简单的啊,这次貌似不怎么幸运。按照google的结果,好几次都没成功。
本人系统是Ubuntu 12.04,后来知道可以直接sudo apt-get install python-lxml就可以。现在想起,我安装的时候,试过sudo apt-get install lxml,提示找不到包。这里引出一个问题如何根据关键词查询包名。
我用sudo apt-get help(好多这种格式的命令都会支持help),结果没有发现apt-get提供的根据关键词搜索包名的command或者option。谷歌之后找到了解决这个小问题的方法:先用 apt-cache search找到软件的准确名字,再用apt-cache show来看详细的信息。
apt-cache search lxml
结果:
inkscape - vector-based drawing program
python-lxml - pythonic binding for the libxml2 and libxslt libraries
python-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
python-lxml-doc - pythonic binding for the libxml2 and libxslt libraries (documentation)
python3-lxml - pythonic binding for the libxml2 and libxslt libraries
python3-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
xml-core - XML infrastructure and XML catalog file support
python-okasha - trivial WSGI web framework for Python
python-pyquery - jQuery-like library for python
tclxml - Tcl library for XML parsing
然后就可以用apt-cache python-lxml来查看包的依赖等详细信息。
顺便查了一下apt-cache的用法,贴在下面:
apt-cache是一个apt软件包管理工具,它可查询apt的二进制软件包缓存文件。通过它我们可查询软件包的状态信息。
apt-cache show package_name
显示软件的信息,包括版本号,安装状态和包依赖关系等。
apt-cache search package_name
搜索软件包,可用正则表达式。
apt-cache showpkg package_name
显示软件包的依赖关系信息。
apt-cache policy package_name
显示软件包的安装状态和版本信息。
apt-cache depends package_name
显示指定软件包所依赖的软件包。
apt-cache rdepends package_name
显示软件包的反向依赖关系,即有什么软件包需依赖你所指定的软件包。
❻ 会数通,会linux,会Python能做什么工作
1、Python爬虫工程师
Python爬虫是我们比较熟悉的Python的一个方向,Python爬虫将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。Python爬虫可以做的事情很多,如搜索引擎、采集数据、广告过滤等,Python爬虫还可以用于数据分析,在数据的抓取方面可以作用巨大!从事Python爬虫工程师的小伙伴需要熟练使用Python语言,熟悉常用爬虫框架如Scrapy等;熟练使用selenium,lxml, bs4 对xml,html的文本进行抓取解析清理;对管理网站的cookie实效性处理有经验。
2、Python人工智能
目前国内人工智能基础编程语言是Python,前段时间,机器人战胜了围棋大师。属于人工智能的时代已经到来了,目前,很多公司都在招募大量人工智能、量化交易、机器学习相关人才,对相关人才要求有较高的学习能力和数学能力,年薪更高,对于刚接触Python的人士来说,Python人工智能很适合作为未来发展方向研究。
3、数据处理
在互联网飞速的时代,数据可以说明很多东西,现在很多做数据分析的不是原来那么简单,Python语言成为了做数据分析师的第一首选,Python这门编程语言集成的很多图形库可以直接讲数据以数据分布图的方式展示出来。不仅仅在数据统计和处理,在很多高校的实验室里面提取的大量的实验数据也需要整理和归纳,Python也能起到非常大的作用。可以给工作带来很大的效率。想往数据分析这方面发展的小伙伴们需要熟悉主流的数据挖掘建模算法,如数据分析、分类预测、用户画像等;掌握数据分析模型的固化及部署工作,可进行进行数据分析、数据建模、挖掘、清洗,可实现包括数据交互、特征提取、数据挖掘、分析报告等。
4、Web开发
Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库,可以实现web开发,搭建web框架,从事该领域的小伙伴们需要从数据、组件、安全等多领域进行学习,从底层了解其工作原理并可驾驭任何业内主流的Web框架。
5、Linux运维
Linux运维是一定要掌握Python语言,Python是一门非常NB的编程语言,它可以满足Linux运维工程师的工作需求提升效率,总而提升自己的能力,Python是一门综合性的语言,能满足绝大部分自动化运维需求,前端和后端都可以做。
❼ python lxml库怎么安装
lxml是Python中与XML及HTML相关功能中最丰富和最容易使用的库。lxml并不是Python自带的包,而是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些库的速度和功能完整性,以及纯Python API的简洁性,与大家熟知的ElementTree API兼容但比之更优越!但安装lxml却又有点麻烦,因为存在依赖,直接安装的话用easy_install, pip都不能成功,会报gcc错误。下面列出来Windows、Linux下面的安装方法:
【Windows系统】
先确保Python已经安装好,环境变量也配置好了,相应的的easy_install、pip也安装好了.
1. 执行 pip install virtualenv
[python] view plain print?
C:\>pip install virtualenv
Requirement already satisfied (use --upgrade to upgrade): virtualenv in c:\python27\lib\site-package
s\virtualenv-12.0.4-py2.7.egg
2. 从官方网站下载与系统,Python版本匹配的lxml文件:
http //pypi.python.org/pypi/lxml/2.3/
NOTE:
比如说我的电脑是Python 2.7.4, 64位操作系统,那么我就可以下载
[python] view plain print?
lxml-2.3-py2.7-win-amd64.egg (md5) # Python Egg
或
lxml-2.3.win-amd64-py2.7.exe (md5) # MS Windows installer
3. 执行 easy_install lxml-2.3-py2.7-win-amd64.egg
[python] view plain print?
D:\Downloads>easy_install lxml-2.3-py2.7-win-amd64.egg # 进入该文件所在目录执行该命令
Processing lxml-2.3-py2.7-win-amd64.egg
creating c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Extracting lxml-2.3-py2.7-win-amd64.egg to c:\python27\lib\site-packages
Adding lxml 2.3 to easy-install.pth file
Installed c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Processing dependencies for lxml==2.3
Finished processing dependencies for lxml==2.3
NOTE:
1. 可用exe可执行文件,方法更简单直接安装就可以
2. 可用easy_install安装方式,也可以用pip的方式
[python] view plain print?
#再执行下,就安装成功了!
>>> import lxml
>>>
3. 如用pip安装,常用命令就是:
pip install simplejson # 安装Python包
pip install --upgrade simplejson # 升级Python包
pip uninstall simplejson # 卸载Python包
4. 如用Eclipse+Pydev的开发方式,需要移除旧包,重新加载一次
Window --> Preferences --> PyDev --> Interperter-python # 否则导包的时候会报错
【Linux系统】
因为lxml依赖的包如下:
libxml2, libxml2-devel, libxlst, libxlst-devel, python-libxml2, python-libxslt
所以安装步骤如下:
第一步: 安装 libxml2
$ sudo apt-get install libxml2 libxml2-dev
第二步: 安装 libxslt
$ sudo apt-get install libxlst libxslt-dev
第三步: 安装 python-libxml2 和 python-libxslt
$ sudo apt-get install python-libxml2 python-libxslt
第四步: 安装 lxml
$ sudo easy_install lxml
❽ python,pip已经正常安装库lxml,但是却引用不动,求大神帮忙
到http://www.lfd.uci.e/~gohlke/pythonlibs/#lxml
下载已经编译的安装包,注意选择Python的版本和操作系统的位数
在命令行中输入
pipinstall下载安装包的路径
❾ Python3.4怎么安装pip,lxml,beautifulsoup和requests
最好先说明一下你当前的操作系统,正常情况下,安装完python或者是自带的python都是自带pip的,我下面的回答是在pip已经安装好的前提下的,lxml:如果是linux系统或者Unix,直接pip install lxml 另外两个包的安装类型 如果是在win系统下,可以参考我在网络知道中的回答:https://..com/question/627051536201345724