❶ 如何在 linux 上使用 python 讀取 word 文件信息
第一步:獲取doc文件的xml組成文件
import zipfiledef get_word_xml(docx_filename):
with open(docx_filename) as f:
zip = zipfile.ZipFile(f)
xml_content = zip.read('word/document.xml')
return xml_content
第二步:解析xml為樹形數據結構
from lxml import etreedef get_xml_tree(xml_string):
return etree.fromstring(xml_string)
第三步:讀取word內容:
def _itertext(self, my_etree):
"""Iterator to go through xml tree's text nodes"""
for node in my_etree.iter(tag=etree.Element):
if self._check_element_is(node, 't'):
yield (node, node.text)def _check_element_is(self, element, type_char):
word_schema = '99999'
return element.tag == '{%s}%s' % (word_schema,type_char)
❷ linux 怎麼刪除scrapy
一.安裝scrapy
pip install Scrapy 由於scrapy相關依賴較多,因此在安裝過程中可能遇到如下問題:
1.ImportError: No mole named w3lib.http
解決:pip install w3lib
2.ImportError: No mole named twisted
解決:pip install twisted
3.ImportError: No mole named lxml.html
解決:pip install lxml
4.error: libxml/xmlversion.h: No such file or directory
解決:apt-get install libxml2-dev libxslt-dev
apt-get install python-lxml
5.ImportError: No mole named cssselect
解決:pip install cssselect
6.ImportError: No mole named OpenSSL
解決:pip install pyOpenSSL
以上基本涵蓋安裝過程中可能出現的依賴問題,如有遺漏待發現後補充
使用scrapy --version 如顯示出版本信息則安裝成功
❸ 如何在linux ubuntu 下安裝scapy pyx
最近在學習爬蟲,早就聽說Python寫爬蟲極爽(貌似pythoner說python都爽,不過也確實,python的類庫非常豐富,不用重復造輪子),還有一個強大的框架Scrapy,於是決定嘗試一下。
要想使用Scrapy第一件事,當然是安裝Scrapy,嘗試了Windows和Ubuntu的安裝,本文先講一下 Ubuntu的安裝,比Windows的安裝簡單太多了。抽時間也會詳細介紹一下怎麼在Windows下進行安裝。
官方介紹,在安裝Scrapy前需要安裝一系列的依賴.
* Python 2.7: Scrapy是Python框架,當然要先安裝Python ,不過由於Scrapy暫時只支持 Python2.7,因此首先確保你安裝的是Python 2.7
* lxml:大多數Linux發行版自帶了lxml
* OpenSSL:除了windows之外的系統都已經提供
* Python Package: pip and setuptools. 由於現在pip依賴setuptools,所以安裝pip會自動安裝setuptools
有上面的依賴可知,在非windows的環境下安裝 Scrapy的相關依賴是比較簡單的,只用安裝pip即可。Scrapy使用pip完成安裝。
檢查Scrapy依賴是否安裝
你可能會不放心自己的電腦是否已經安裝了,上面說的已經存在的依賴,那麼你可以使用下面的方法檢查一下,本文使用的是Ubuntu 14.04。
檢查Python的版本
$ python --version
如果看到下面的輸出,說明Python的環境已經安裝,我這里顯示的是Python 2.7.6,版本也是2.7的滿足要求。如果沒有出現下面的信息,那麼請讀者自行網路安裝Python,本文不介紹Python的安裝(網上一搜一堆)。
檢查lxml和OpenSSL是否安裝
假設已經安裝了Python,在控制台輸入python,進入Python的交互環境。
然後分別輸入import lxml和import OpenSSL如果沒有報錯,說明兩個依賴都已經安裝。
安裝python-dev和libevent
python-dev是linux上開發python比較重要的工具,以下的情況你需要安裝
* 你需要自己安裝一個源外的python類庫, 而這個類庫內含需要編譯的調用python api的c/c++文件
* 你自己寫的一個程序編譯需要鏈接libpythonXX.(a|so)
libevent是一個時間出發的高性能的網路庫,很多框架的底層都使用了libevent
上面兩個庫是需要安裝的,不然後面後報錯。使用下面的指令安裝
$sudo apt-get install python-dev
$sudo apt-get install libevent-dev
安裝pip
因為Scrapy可以使用pip方便的安裝,因此我們需要先安裝pip,可以使用下面的指令安裝pip
$ sudo apt-get install python-pip
使用pip安裝Scrapy
使用下面的指令安裝Scrapy。
$ sudo pip install scrapy
記住一定要獲得root許可權,否則會出現下面的錯誤。
至此scrapy安裝完成,使用下面的命令檢查Scrapy是否安裝成功。
$ scrapy version
顯示如下結果說明安裝成功,此處的安裝版本是1.02
❹ python安裝不上一些庫怎麼辦
python自帶pip包管理工具,默認採用pypi的源路徑,可以使用還源鏡像的方式安裝第三方庫,來保證python庫的安裝。
解決辦法:
1.解決辦法網上一般就是用http://www.lfd.uci.e/~gohlke/pythonlibs/#lxml這個網站直接下載一些whl文件進行pip安裝,
小技巧:進入whl所在文件,一般人都是在cmd中各種cd,其實直接打開所在文件,按著shift加滑鼠右鍵就出現打開命令窗口,初始位置默認當前文件所在位置。
還有就是win64系統安裝的32位的python,那麼在進行whl文件安裝時需要選擇32位的文件,不是64位的。
安裝scrapy安裝不上但是網站沒有whl文件,那麼將其安裝所依賴的庫都用pip或whl安裝上再次pip安裝scrapy即可
2.windows下安裝python建議安裝www.continuum.io/downloads這個網站的Anaconda for windows,這個版本的python與linux下的python使用的c編譯器相同,相比較不會輕易碰到安裝庫不成功。
3.pip install jupyter安裝這個庫,安裝上之後,執行jupyter notebook將會打開本地的一個網頁,右邊有個new,點擊後出現一個列表,再次點擊python3之後跳轉後就可以編寫代碼了,默認安裝了一些requests,scrapy之類的庫的。
推薦課程:零基礎入門學習Python(小甲魚)
❺ 怎樣查看linux有沒有安裝lxml
要用Python處理XML數據,由於之前用過lxml,因此打算採用lxml庫。找出原來的寫好的腳本發現不能運行,沒有lxml模塊,看來得自己動手。記得原來用的時候模似安裝挺簡單的啊,這次貌似不怎麼幸運。按照google的結果,好幾次都沒成功。
本人系統是Ubuntu 12.04,後來知道可以直接sudo apt-get install python-lxml就可以。現在想起,我安裝的時候,試過sudo apt-get install lxml,提示找不到包。這里引出一個問題如何根據關鍵詞查詢包名。
我用sudo apt-get help(好多這種格式的命令都會支持help),結果沒有發現apt-get提供的根據關鍵詞搜索包名的command或者option。谷歌之後找到了解決這個小問題的方法:先用 apt-cache search找到軟體的准確名字,再用apt-cache show來看詳細的信息。
apt-cache search lxml
結果:
inkscape - vector-based drawing program
python-lxml - pythonic binding for the libxml2 and libxslt libraries
python-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
python-lxml-doc - pythonic binding for the libxml2 and libxslt libraries (documentation)
python3-lxml - pythonic binding for the libxml2 and libxslt libraries
python3-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
xml-core - XML infrastructure and XML catalog file support
python-okasha - trivial WSGI web framework for Python
python-pyquery - jQuery-like library for python
tclxml - Tcl library for XML parsing
然後就可以用apt-cache python-lxml來查看包的依賴等詳細信息。
順便查了一下apt-cache的用法,貼在下面:
apt-cache是一個apt軟體包管理工具,它可查詢apt的二進制軟體包緩存文件。通過它我們可查詢軟體包的狀態信息。
apt-cache show package_name
顯示軟體的信息,包括版本號,安裝狀態和包依賴關系等。
apt-cache search package_name
搜索軟體包,可用正則表達式。
apt-cache showpkg package_name
顯示軟體包的依賴關系信息。
apt-cache policy package_name
顯示軟體包的安裝狀態和版本信息。
apt-cache depends package_name
顯示指定軟體包所依賴的軟體包。
apt-cache rdepends package_name
顯示軟體包的反向依賴關系,即有什麼軟體包需依賴你所指定的軟體包。
❻ 會數通,會linux,會Python能做什麼工作
1、Python爬蟲工程師
Python爬蟲是我們比較熟悉的Python的一個方向,Python爬蟲將網路一切數據作為資源,通過自動化程序進行有針對性的數據採集以及處理。Python爬蟲可以做的事情很多,如搜索引擎、採集數據、廣告過濾等,Python爬蟲還可以用於數據分析,在數據的抓取方面可以作用巨大!從事Python爬蟲工程師的小夥伴需要熟練使用Python語言,熟悉常用爬蟲框架如Scrapy等;熟練使用selenium,lxml, bs4 對xml,html的文本進行抓取解析清理;對管理網站的cookie實效性處理有經驗。
2、Python人工智慧
目前國內人工智慧基礎編程語言是Python,前段時間,機器人戰勝了圍棋大師。屬於人工智慧的時代已經到來了,目前,很多公司都在招募大量人工智慧、量化交易、機器學習相關人才,對相關人才要求有較高的學習能力和數學能力,年薪更高,對於剛接觸Python的人士來說,Python人工智慧很適合作為未來發展方向研究。
3、數據處理
在互聯網飛速的時代,數據可以說明很多東西,現在很多做數據分析的不是原來那麼簡單,Python語言成為了做數據分析師的第一首選,Python這門編程語言集成的很多圖形庫可以直接講數據以數據分布圖的方式展示出來。不僅僅在數據統計和處理,在很多高校的實驗室裡面提取的大量的實驗數據也需要整理和歸納,Python也能起到非常大的作用。可以給工作帶來很大的效率。想往數據分析這方面發展的小夥伴們需要熟悉主流的數據挖掘建模演算法,如數據分析、分類預測、用戶畫像等;掌握數據分析模型的固化及部署工作,可進行進行數據分析、數據建模、挖掘、清洗,可實現包括數據交互、特徵提取、數據挖掘、分析報告等。
4、Web開發
Python擁有很多免費數據函數庫、免費web網頁模板系統、以及與web伺服器進行交互的庫,可以實現web開發,搭建web框架,從事該領域的小夥伴們需要從數據、組件、安全等多領域進行學習,從底層了解其工作原理並可駕馭任何業內主流的Web框架。
5、Linux運維
Linux運維是一定要掌握Python語言,Python是一門非常NB的編程語言,它可以滿足Linux運維工程師的工作需求提升效率,總而提升自己的能力,Python是一門綜合性的語言,能滿足絕大部分自動化運維需求,前端和後端都可以做。
❼ python lxml庫怎麼安裝
lxml是Python中與XML及HTML相關功能中最豐富和最容易使用的庫。lxml並不是Python自帶的包,而是為libxml2和libxslt庫的一個Python化的綁定。它與眾不同的地方是它兼顧了這些庫的速度和功能完整性,以及純Python API的簡潔性,與大家熟知的ElementTree API兼容但比之更優越!但安裝lxml卻又有點麻煩,因為存在依賴,直接安裝的話用easy_install, pip都不能成功,會報gcc錯誤。下面列出來Windows、Linux下面的安裝方法:
【Windows系統】
先確保Python已經安裝好,環境變數也配置好了,相應的的easy_install、pip也安裝好了.
1. 執行 pip install virtualenv
[python] view plain print?
C:\>pip install virtualenv
Requirement already satisfied (use --upgrade to upgrade): virtualenv in c:\python27\lib\site-package
s\virtualenv-12.0.4-py2.7.egg
2. 從官方網站下載與系統,Python版本匹配的lxml文件:
http //pypi.python.org/pypi/lxml/2.3/
NOTE:
比如說我的電腦是Python 2.7.4, 64位操作系統,那麼我就可以下載
[python] view plain print?
lxml-2.3-py2.7-win-amd64.egg (md5) # Python Egg
或
lxml-2.3.win-amd64-py2.7.exe (md5) # MS Windows installer
3. 執行 easy_install lxml-2.3-py2.7-win-amd64.egg
[python] view plain print?
D:\Downloads>easy_install lxml-2.3-py2.7-win-amd64.egg # 進入該文件所在目錄執行該命令
Processing lxml-2.3-py2.7-win-amd64.egg
creating c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Extracting lxml-2.3-py2.7-win-amd64.egg to c:\python27\lib\site-packages
Adding lxml 2.3 to easy-install.pth file
Installed c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Processing dependencies for lxml==2.3
Finished processing dependencies for lxml==2.3
NOTE:
1. 可用exe可執行文件,方法更簡單直接安裝就可以
2. 可用easy_install安裝方式,也可以用pip的方式
[python] view plain print?
#再執行下,就安裝成功了!
>>> import lxml
>>>
3. 如用pip安裝,常用命令就是:
pip install simplejson # 安裝Python包
pip install --upgrade simplejson # 升級Python包
pip uninstall simplejson # 卸載Python包
4. 如用Eclipse+Pydev的開發方式,需要移除舊包,重新載入一次
Window --> Preferences --> PyDev --> Interperter-python # 否則導包的時候會報錯
【Linux系統】
因為lxml依賴的包如下:
libxml2, libxml2-devel, libxlst, libxlst-devel, python-libxml2, python-libxslt
所以安裝步驟如下:
第一步: 安裝 libxml2
$ sudo apt-get install libxml2 libxml2-dev
第二步: 安裝 libxslt
$ sudo apt-get install libxlst libxslt-dev
第三步: 安裝 python-libxml2 和 python-libxslt
$ sudo apt-get install python-libxml2 python-libxslt
第四步: 安裝 lxml
$ sudo easy_install lxml
❽ python,pip已經正常安裝庫lxml,但是卻引用不動,求大神幫忙
到http://www.lfd.uci.e/~gohlke/pythonlibs/#lxml
下載已經編譯的安裝包,注意選擇Python的版本和操作系統的位數
在命令行中輸入
pipinstall下載安裝包的路徑
❾ Python3.4怎麼安裝pip,lxml,beautifulsoup和requests
最好先說明一下你當前的操作系統,正常情況下,安裝完python或者是自帶的python都是自帶pip的,我下面的回答是在pip已經安裝好的前提下的,lxml:如果是linux系統或者Unix,直接pip install lxml 另外兩個包的安裝類型 如果是在win系統下,可以參考我在網路知道中的回答:https://..com/question/627051536201345724