《PHP編程:PHP實現采集抓取淘寶網單個商品信息》要點:
本文介紹了PHP編程:PHP實現采集抓取淘寶網單個商品信息,希望對您有用。如果有疑問,可以聯系我們。
調用淘寶的數據可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開信息在本身網站上,使用php中的 file_get_contents 函數實現即可.PHP教程
思路:PHP教程
file_get_contents(url) 該函數根據 url 如 http://www.baidu.com 將該網頁內容(源碼)以字符串形式輸出(一個整字符串),然后配合preg_match,preg_replace等這些正則表達式操作就可以實現獲取該url特定div,img等信息了.當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id便是J_ImgBooth!PHP教程
具體實現辦法:(獲取500圖,名稱,價格,屬性及商品描述)
PHP教程
代碼如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保留進$text
A.獲取500圖:
PHP教程
代碼如下:
preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標簽中id為J_ImgBooth的img,$img[0]為該500圖img標簽,$img[1]為500圖的圖片地址;
B. 獲取名稱:PHP教程
代碼如下:
preg_match('/<title>([^<>]*)<\/title>/', $text, $title);
//因為正文中的商品名稱標簽沒有特殊class或id正則不好抓取,就抓<title>標簽中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標簽 $title[1]標簽中內容;
$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼,那么必要進行一下轉碼(淘寶是gbk編碼)
C.獲取價格:PHP教程
代碼如下:
preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標簽內容$price[2], $price[0]是整個標簽, $price[1]為strong標簽名;
$price=floatval($price);//放入數據庫估量還有轉一下變量類型
D.獲取屬性:PHP教程
這之前獲取的內容都是在單標簽中相對只需一個正則就可搞定,然而如果要獲取如PHP教程
代碼如下:
…
?
<div id=”xxx”>
?
…
?
<ul>
?
…
?
</ul>
?
<div>…
?
<div>…
?
</div>
?
</div>
?
</div>
?
…
這樣特定div中有未知n個<>標簽,獲取該特定div將會非常的困難,搜了下網上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標簽對,但是他不能抓特定標簽,所以想要輕松抓取class=”attributes”的div我是沒法辦到了.但是淘寶網頁有其特殊性,便是它的各個標簽結構基本是固定的…<div>…</div>標簽后面不是</div><div id=”description”>便是</div><div>,所以我們可以采用變通法達到獲取屬性標簽內容的目的.PHP教程
代碼如下:
preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取<div開始到整個頁面最后一個</div>標簽,當然我們屬性標簽就在這個的前面部分.
?
$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);
//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的刪除了),所以如果attributes的div后面緊跟的是description那么我們已經達到目的了.
?
$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);
//如果attributes后面緊跟box J_Tbox標簽,那么我們還必要使用以上這步來剔除box J_Tbox標簽,當然如果attributes的div后面緊跟的是description,這一步將不會匹配到任何即什么都不會做.
E.獲取描述:PHP教程
通過上面辦法你肯定覺得淘寶頁面上任何標簽都可以很簡單獲取了吧(我之前也是這么想的),但是使用這個辦法獲取描述時得到的內容將會是“描述加載中”,是的,這個描述內容不是在源碼中的,它是打開頁面加載進一大堆js后,不知道從淘寶的哪個角落中加載進來的.PHP教程
好吧,那么我們也可以模仿它放一些js進去.不知道哪些對加載描述有用?沒事,全加載進來肯定沒錯.不知道必要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發現“<div id=”detail”> </div>PHP教程
代碼如下:
<div id="description">
?
<div id="J_DivItemDesc">描述加載中</div>
?
</div>
這幾個div是加載描述所必需的,那么下面就是寫代碼了:PHP教程
代碼如下:
preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js劇本
?$content=$content[0];
?$description='<div id="detail"> </div>
??<div id="description">
???<div id="J_DivItemDesc">描述加載中</div>
??</div>';
foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};
//將這個$description放進頁面,描述就會自動的加載進來了,當然多個商品描述在同一個頁面也會只有一個描述會被加載的.
歡迎參與《PHP編程:PHP實現采集抓取淘寶網單個商品信息》討論,分享您的想法,維易PHP學院為您提供專業教程。
轉載請注明本頁網址:
http://www.snjht.com/jiaocheng/12791.html