《PHP學(xué)習(xí):PHP實(shí)現(xiàn)小偷程序?qū)嵗芬c(diǎn):
本文介紹了PHP學(xué)習(xí):PHP實(shí)現(xiàn)小偷程序?qū)嵗M麑?duì)您有用。如果有疑問,可以聯(lián)系我們。
PHP學(xué)習(xí)為什么使用“小偷程序”?
PHP學(xué)習(xí)遠(yuǎn)程抓取文章資訊或商品信息是很多企業(yè)要求程序員實(shí)現(xiàn)的功能,也就是俗說的小偷程序.其最主要的優(yōu)點(diǎn)是:解決了公司網(wǎng)編繁重的工作,大大提高了效率.只需要一運(yùn)行就能快速的抓取別人網(wǎng)站的信息.
PHP學(xué)習(xí)“小偷程序”在哪里運(yùn)行?
PHP學(xué)習(xí)“小偷程序” 應(yīng)該在 Windows 下的 DOS或 Linux 下通過 PHP 命令運(yùn)行為最佳,因?yàn)?網(wǎng)頁運(yùn)行會(huì)超時(shí).
PHP學(xué)習(xí)比如圖(Windows 下 DOS 為例):
PHP學(xué)習(xí)
PHP學(xué)習(xí)“小偷程序”的實(shí)現(xiàn)
PHP學(xué)習(xí)這里主要通過一個(gè)實(shí)例來講解,我們來抓取下“華強(qiáng)電子網(wǎng)”的資訊信息,請(qǐng)先看觀察這個(gè)鏈接 http://www.hqew.com/info-c10.html,當(dāng)您打開這個(gè)頁面的時(shí)候發(fā)現(xiàn)這個(gè)頁面會(huì)發(fā)現(xiàn)一些現(xiàn)象:
PHP學(xué)習(xí)?1、資訊列表有 500 頁(2012-01-03);
PHP學(xué)習(xí)?2、每頁的 url 鏈接都有規(guī)律,比如:第1頁為http://www.hqew.com/info-c10-1.html;第2頁為http://www.hqew.com/info-c10-2.html;……第500頁為http://www.hqew.com/info-c10-500.html;
PHP學(xué)習(xí)3、由第二點(diǎn)就可以知道,“華強(qiáng)電子網(wǎng)” 的資訊是偽靜態(tài)或者是生成的靜態(tài)頁面
PHP學(xué)習(xí)其實(shí),基本上大部分的網(wǎng)站都有這樣的規(guī)律,比如:中關(guān)村在線、慧聰網(wǎng)、新浪、淘寶…….
PHP學(xué)習(xí)這樣,我們可以通過這樣的思路來實(shí)現(xiàn)頁面內(nèi)容的抓取:
1、先獲取文章列表頁內(nèi)容;
2、根據(jù)文章列表頁內(nèi)容循環(huán)獲取文章的 url 地址;
3、根據(jù)文章的 url 地址獲取文章的詳細(xì)內(nèi)容
PHP學(xué)習(xí)這里,我們主要抓取資訊頁里面的:標(biāo)題(title)、發(fā)布如期(date)、作者(author)、來源(source)、內(nèi)容(content)
PHP學(xué)習(xí)“華強(qiáng)電子網(wǎng)”資訊抓取
PHP學(xué)習(xí)首先,先建數(shù)據(jù)表結(jié)構(gòu),如下所示:
PHP學(xué)習(xí)
CREATE TABLE `article`.`article` (
`id` MEDIUMINT( 8 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY ,
`title` VARCHAR( 255 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`date` VARCHAR( 50 ) NOT NULL ,
`author` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`source` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
`content` TEXT NOT NULL
) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;
PHP學(xué)習(xí)?抓取程序:
?
轉(zhuǎn)載請(qǐng)注明本頁網(wǎng)址:
http://www.snjht.com/jiaocheng/2913.html