《PHP學習:利用php抓取蜘蛛爬蟲痕跡的示例代碼》要點:
本文介紹了PHP學習:利用php抓取蜘蛛爬蟲痕跡的示例代碼,希望對您有用。如果有疑問,可以聯(lián)系我們。
PHP實戰(zhàn)前言
PHP實戰(zhàn)相信許多的站長、博主可能最關(guān)心的無非就是自己網(wǎng)站的收錄情況,一般情況下我們可以通過查看空間服務(wù)器的日志文件來查看搜索引擎到底爬取了我們哪些個頁面,不過,如果用php代碼分析web日志中蜘蛛爬蟲痕跡,是比較好又比較直觀方便操作的!下面是示例代碼,有需要的朋友們下面來一起看看吧.
PHP實戰(zhàn)示例代碼
PHP實戰(zhàn)
<?php
//獲取蜘蛛爬蟲名或防采集
function isSpider(){
$bots = array(
'Google' => 'googlebot',
'Baidu' => 'baiduspider',
'Yahoo' => 'yahoo slurp',
'Soso' => 'sosospider',
'Msn' => 'msnbot',
'Altavista' => 'scooter ',
'Sogou' => 'sogou spider',
'Yodao' => 'yodaobot'
);
$userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
foreach ($bots as $k => $v){
if (strstr($v,$userAgent)){
return $k;
break;
}
}
return false;
}
//獲取哪種蜘蛛爬蟲后保存蜘蛛痕跡.
//根據(jù)采集時HTTP_USER_AGENT是否為空來防止采集
//抓蜘蛛爬蟲
$spi = isSpider();
if($spi){
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$file = 'robot.txt';
$time = date('Y-m-d H:i:s',mktime());
$handle = fopen($file,'a+');
$PR = $_SERVER['REQUEST_URI'];
fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} \n\r");
fclose($handle);
}
?>
PHP實戰(zhàn)總結(jié)
PHP實戰(zhàn)以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作能帶來一定的幫助,如果有問題大家可以留言交流.
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.snjht.com/jiaocheng/3158.html