PHP實現採集抓取淘寶網單個商品信息,本文是一種實現思路,使用file_get_contents函數實現,並給出了採集正則,需要的朋友可以參考下
調用淘寶的數據可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開信息在自己網站上,使用php中的 file_get_contents 函數實現即可。
思路:
file_get_contents(url) 該函數根據 url 如 http://www..com 將該網頁內容(源碼)以字元串形式輸出(一個整字元串),然後配合preg_match,preg_replace等這些正則表達式操作就可以實現獲取該url特定div,img等信息了。當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id就是J_ImgBooth!
具體實現方法:(獲取500圖,名稱,價格,屬性及商品描述)
復制代碼 代碼如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保存進$text
A.獲取500圖:
復制代碼 代碼如下:
preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標簽中id為J_ImgBooth的img,$img[0]為該500圖img標簽,$img[1]為500圖的圖片地址;
B. 獲取名稱:
復制代碼 代碼如下:
preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因為正文中的商品名稱標簽沒有特殊class或id正則不好抓取,就抓<title>標簽中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標簽 $title[1]標簽中內容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼,那麼需要進行一下轉碼(淘寶是gbk編碼)
C.獲取價格:
復制代碼 代碼如下:
preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標簽內容$price[2], $price[0]是整個標簽, $price[1]為strong標簽名;
$price=floatval($price);//放入資料庫估計還有轉一下變數類型
D.獲取屬性:
這之前獲取的內容都是在單標簽中相對只需一個正則就可搞定,然而如果要獲取如
復制代碼 代碼如下:
…
<div id=」xxx」>
…
<ul>
…
</ul>
<div>…
<div>…
</div>
</div>
</div>
…
這樣特定div中有未知n個<>標簽,獲取該特定div將會非常的困難,搜了下網上,最接近的也只是」/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/」這樣使用遞歸抓取標簽對,但是他不能抓特定標簽,所以想要輕松抓取class=」attributes」的div我是沒法辦到了。但是淘寶網頁有其特殊性,就是它的各個標簽結構基本是固定的…<div>…</div>標簽後面不是</div><div id=」description」>就是</div><div>,所以我們可以採用變通法達到獲取屬性標簽內容的目的。
復制代碼 代碼如下:
preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最後一個</div>標簽,當然我們屬性標簽就在這個的前面部分。
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=」description」>至最後</div>然後用」」代替(就是把匹配的刪除了),所以如果attributes的div後面緊跟的是description那麼我們已經達到目的了。
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes後面緊跟box J_Tbox標簽,那麼我們還需要使用以上這步來剔除box J_Tbox標簽,當然如果attributes的div後面緊跟的是description,這一步將不會匹配到任何即什麼都不會做。
E.獲取描述:
通過上面方法你肯定覺得淘寶頁面上任何標簽都可以很簡單獲取了吧(我之前也是這么想的),但是使用這個方法獲取描述時得到的內容將會是「描述載入中」,是的,這個描述內容不是在源碼中的,它是打開頁面載入進一大堆js後,不知道從淘寶的哪個角落中載入進來的。
好吧,那麼我們也可以模仿它放一些js進去。不知道哪些對載入描述有用?沒事,全載入進來肯定沒錯。不知道需要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發現「<div id=」detail」> </div>
復制代碼 代碼如下:
<div id="description">
<div id="J_DivItemDesc">描述載入中</div>
</div>
這幾個div是載入描述所必須的,那麼下面就是寫代碼了:
復制代碼 代碼如下:
preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js腳本
$content=$content[0];
$description='<div id="detail"> </div>
<div id="description">
<div id="J_DivItemDesc">描述載入中</div>
</div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//將這個$description放進頁面,描述就會自動的載入進來了,當然多個商品描述在同一個頁面也會只有一個描述會被載入的。
② php怎麼調用淘寶api
1、首先建立一個abstract文件名php為後綴的文件。並在頁面中加入php標記 。
③ 怎麼利用爬蟲技術抓取淘寶搜索頁面的產品信息
可以通過requests庫re庫進行淘寶商品爬蟲爬取
import requests
import re
def getHTMLText(url):
try:
r= requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print("F")
def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序號","價格","商品名稱"))
count = 0
for g in ilt:
count = count +1
print(tplt.format(count,g[0],g[1]))
def main():
goods = '書包'
depth = 2
start_url = "https://s.taobao.com/search?q="+ goods
infoList = []
for i in range(depth):
try:
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
except:
continue
printGoodsList(infoList)
main()
這段代碼在過去是可以爬取淘寶商品信息,但是因為淘寶的反扒技術升級,便不能讓你大搖大擺地進出自如了。
此外也可以藉助採集實現採集
④ php如何爬取天貓和淘寶商品數據
直接用Curl就行,具體爬取的數據可以穿參查看結果,方法不區分淘寶和天貓鏈接,但是前提是必須是PC端鏈接,另外正則寫的不規范,所以可以自己重寫正則來匹配數據。
⑤ 淘寶網為什麼是用PHP程序開發
從用戶的角度講:PHP的開發成本低,速度較快,比用ASP和JSP的開發性價比高。 從技術的角度講: PHP是一個很優秀的工具,它可以簡單,也可以復雜。不一樣的項目,應該用不一樣的PHP。小項目 - 簡單而直接的PHP 一般對於一個功能頁面在20以下的網站,我們可以用一個很簡單的框架結構來寫。在這個規模上,我建議是使用比較直接的面向過程編碼方法,原因很簡單,沒有必要把class文件弄的N 多,結果controller里邊就一個new就完了。當然,需求頻繁變化的項目除外。
在這個級別上,php優點表現的很明顯:快速開發,一目瞭然。缺點同時也被隱藏得很好。 中型項目 - 結構優美的面向對象化的PHP 對於一個中型項目,我建議使用一個良好設計的框架來做,這個框架可以是基於MVC模型,封裝了眾多底層操作的,當然,一定要有一個好的最好是透明的cache機制,這樣,我們為了適應變化而加入的OO機制可以運行得更快更好。 在這個級別上。php的缺點開始凸現,像對OO支持的不完整(這個PHP5有很大改進),只能單線程模式。另外一些外圍工具開始出現缺乏支持,像PHP沒有好的重構工具,沒有好的集成到IDE中的單元測試工具。優點當然還是原來的快速開發,廣泛的可用的開源資源。 大型項目 - 擴展、優化後的PHP 這里的大型項目,簡單的指分布式項目,就是說,你的程序需要被部署在N台伺服器上了。在這個層級上,PHP比起J2EE的確缺乏很多支持。我曾和shadow在735上詳細討論過PHP要在大型系統上應用需要解決的一些問題,當然這些問題不光是PHP這個語言的問題,也包括了周邊開發的問題: 1 PHP的頁面代碼共享,PHP的源代碼被載入內存一次以後,就在其中保留 - 這個用APC和Zend的優化器可以搞定。 2 PHP頁面之間的數據對象共享,a.php和b.php之間可以共享一個數據對象,比如數組,這個現在可以用序列化來作,但是會有文件io,這塊可以用共享內存或者memcached來處理。 3 PHP的資料庫連接池,因為在多前端的情況下,PHP控制不住對資料庫的連接,所以需要在資料庫前邊去作一個連接池,類似於sqlrelay的東西。另外數據緩存也是很重要的,大壓力開發有一個tip,就是能不動資料庫就不要動資料庫。 4 PHP的前端cache系統。一個透明的可控制的cache機制,確保網站的頁面以最少次數查詢資料庫。這個有很多實現,但是沒有找到特別好的。 5 一個PHP應用,成功的解決調這幾個問題以後,應付稍微大一點的壓力是沒有什麼問題的。 在這個級別上,重要的是,把PHP Java C++ python之類融合起來,使其成為一個高效系統。我們可以用memcached來做分布式內存管理,可以用Lucene 來作全文檢索,用EJB 容器來放一些業務邏輯組件,PHP則作為前端和系統的膠水,快速而靈活的把這些粘合起來。
⑥ php 怎樣 採集到 阿里巴巴的商品信息
<?php
classalibaba_analyse{
var$code;
var$price;
var$info;
//你的錯誤位置,構造函數是__construct,而不是__constructs
publicfunction__construct($keywords)
{
//http://search.china.alibaba.com/selloffer/offer_search.htm?keywords=頁面是GBK編碼,所以需要先轉成GBK,在進行URL編碼.
$u="http://search.china.alibaba.com/selloffer/offer_search.htm?keywords=".urlencode(iconv('UTF-8','GB2312',$keywords));
$this->code=file_get_contents($u);
}
publicfunctionget_price()
{
/*
價格是在<spanclass="sw-ui-font-priceIcon">450<spanclass="smallSize">.00</span><spanclass="priceUnit"></span></span>這樣的欄位中.
而不是在<divclass="pricef12c-e1">.*([d.]+?).*</div>中
preg_match_all('/<divclass="pricef12c-e1">.*([d.]+?).*</div>/sU',$this->code,$price);
*/
preg_match_all('/<spanclass="sw-ui-font-priceIcon">(d+)(?:<spanclass="smallSize">)([.d]{3})?</span>/sU',$this->code,$price,PREG_SET_ORDER);
/*
得到的數據格式,所以需要使用array_map整理價格
Array
(
[0]=>Array
(
[0]=><spanclass="sw-ui-font-priceIcon">570<spanclass="smallSize">.00</span>
[1]=>570
[2]=>.00
)
....
)
*/
$this->price=array_map(create_function('$a','return$a[1].$a[2];'),$price);
}
}
$ali=newalibaba_analyse("聯想筆記本");
$ali->get_price();
print_r($ali->price);
代碼給出了, 而且經過了測試. 代碼中有註解.
你自己拷貝過去試試吧
希望能夠採納!,能當成優質答案就最好啦.!