『壹』 python批量提取txt文件中的特定字元後的數字
2、待讀取文件
是以":"作為分隔符的數據,每一行以回車結束。此文件為XXX.train
3、讀取每一句中的漢字
1234567891011...file_train = os.path.join(rootDir,"data/train/rg_train_"+modle_date+"_"+aiscene+".train")with open(file_train, 'r')as fp:textlist = fp.readlines()for text in textlist:if ":" in text:L4ID = text.split(":")[-2]Msg = text.split(":")[-1]if query_start == Msg.strip(" "):print("Msg is in train:",Msg)...
代碼中先獲取文件,然後讀取每一行,然後以":"作為分隔符。(-1代表倒數第一個,-2代表倒數第二個)
不管是txt文件還是xml文件還是其他的,都可以用這種方法來批量替換文件中字元串:
1234567891011121314151617# -*- coding:utf-8 -*-__author__ = 'ShawDa'import globxmls = glob.glob('xml_files/*.xml')for one_xml in xmls:print(one_xml)f = open(one_xml, 'r+', encoding='utf-8')all_the_lines = f.readlines()f.seek(0)f.truncate()for line in all_the_lines:line = line.replace('dog', 'pig')line = line.replace('cat', 'bike')f.write(line)f.close()
『貳』 如何用產品id索引爬取標簽內的產品各項標題鏈接價格 python
產品id索引爬取標簽內的產品各項標題鏈接價格 python可以使用網頁請求方式:最常見的方式,一般用於獲取或者查詢資源信息,也是大多數網站使用的方式,響應速度快,或者多以表單形式上傳參數,因此除了查詢信息外,還可以修改信息。
另外可以以開發者的身份進入網站進行價格查詢,打開網頁,用開發者模式,任意復制一條首條新聞標題,粘貼到搜索框里。開發者模式,依次點擊『network』,『XHR』找到翻譯數據,點擊Headers,請求為get方式,使用Beautiful soup解析網頁,然後再安裝bs。
Beautiful soup 指定xlml解析器進行解析,soup=BeautifulSoup(strhtml.text,'lxml'使用select(選擇器)定位數據,使用瀏覽器的開發者模式,將滑鼠停留在對應數據位置並右擊。
開發者界面會有被選中部分,右擊 ---> selector; 將路徑粘貼在文檔中,代碼如下#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a。
這是選中的第一條路徑,但我們要獲取所有的新聞頭條,因此將:li:nth-child(1)中冒號(包含冒號)後面的刪掉。如下:#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a,然後就可以直接查詢了。