正则表达式

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器，支持输入小说ID下载小说。
依赖项：curl
可以简单的看下，里面用到了curl ,正则表达式，ajax等技术，适合新手看看。在本地测试，必须保证联网并且确保php开启curl的mode

SpiderTools.class.php
复制代码代码如下:
<?php
session_start();
//封装成类开启这些自动抓取文章
#header(“Refresh:30;http://www.test.com:8080”);
class SpiderTools{
//////////////////////////////////////////////////////////////////////////////////////////////////////////
/*传入文章ID 解析出文章标题*/
//////////////////////////////////////////////////////////////////////////////////////////////////////////
public function getBookNameById($aid){
//初始化curl
$ch= curl_init();
//url
$url=’http://www.motie.com/book/’.$aid;
if(is_numeric($aid)){
//正则表达式匹配
$ru=”/

\s(.)\s<\/a>\s<\/h1>/”;
}
else{
//丧尸爆发之全家求生路_第一章丧尸爆发　为吾友爱乐儿更新~_磨铁
$ru=”/(.)<\/title>/”; } //设置选项，包括URL curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容 curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息 curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0); //执行curl $output = curl_exec($ch); //错误提示 if(curl_exec($ch) === false){ die(curl_error($ch)); } // 检查是否有错误发生 if(curl_errno($ch)){ echo ‘Curl error: ‘ . curl_error($ch); } //释放curl句柄 curl_close($ch); $arr=array(); preg_match_all($ru,$output,$arr); return $arr[1][0]; } ////////////////////////////////////////////////////////////////////////////////////////////////////////// /传入文章ID 解析文章内容/ ////////////////////////////////////////////////////////////////////////////////////////////////////////// public function getBookContextById($aid){ //开始解析文章 $ids=array(); $ids=explode(“_”,$aid); $titleId=trim($ids[0]); $aticleId=trim($ids[1]); $ch= curl_init(); $ru=”/ <div class="page-content">[\s\S] <pre class="note" id="html_content_\d">[\s\S](.)<\/pre>/ui";%20 %20%20$url='http://www.motie.com/book/'.$aid; %20%20//正则表达式匹配%20%20//设置选项，包括URL %20%20curl_setopt($ch,%20CURLOPT_URL,%20$url); %20%20curl_setopt($ch,%20CURLOPT_RETURNTRANSFER,%201);//不自动输出内容 %20%20curl_setopt($ch,%20CURLOPT_HEADER,%200);//不返回头部信息 %20%20curl_setopt($ch,%20CURLOPT_CONNECTTIMEOUT_MS,%200);%20 %20%20//执行curl %20%20$output%20=%20curl_exec($ch); %20%20//错误提示 %20%20if(curl_exec($ch)%20===%20false){ %20%20%20die(curl_error($ch)); %20%20} %20%20//%20检查是否有错误发生 %20%20if(curl_errno($ch)){ %20%20%20echo%20'Curl%20error:%20'%20.%20curl_error($ch); %20%20} %20%20$arr=array(); %20%20$arr2=array(); %20%20preg_match_all($ru,$output,$arr); %20%20curl_close($ch); %20%20#var_dump($arr); %20%20$s=$arr[0][0]; %20%20$s=substr($s,180); %20%20$arr2=explode("%20%20return%20trim($arr2[0]); %20}%20////////////////////////////////////////////////////////////////6本文来源gao@dai!ma.com搞$代^码!网7<pre class="prettyprint">搞gaodaima代码</pre> //////////////////////////////////////////%20 %20/静态方法%20@生成小说文件%20可以直接调用%20/ %20////////////////////////////////////////////////////////////////////////////////////////////////////////// %20%20%20%20%20public%20static%20function%20createBookById($id){<div><div class="_t33rkthes8f"></div><script type="text/javascript">(window.slotbydup = window.slotbydup || []).push({id: "u6795179",container: "_t33rkthes8f",async: true});</script></div> %20%20if(!is_numeric($id)){%20%20echo%20" INIT%20BEGIN%20START%20WRITE!"; %20%20$st=new%20self(); %20%20$cons=$st->getBookContextById($id); %20%20$title=$st->getBookNameById($id); %20%20$cons=trim($cons); %20%20$t=explode("%20",$title); %20%20//构造目录 %20%20$dir=array(); %20%20$dir=explode("_",$t[0]); %20%20$wzdir=$dir[0];%20%20//书名称%20作为目录名称 %20%20$wzchapter=$dir[1];%20//第几章 %20%20//创建目录 %20%20$wzdir2=iconv("UTF-8",%20"GBK",%20$wzdir);//目录编码%20注意这里保留对$wzdir字符串的引用，用来构造文件名，不能用此处，防止二次编码 %20%20if(!file_exists($wzdir2)){ %20%20%20mkdir($wzdir2);%20//创建目录 %20%20} %20%20//构造文件名 %20%20$wztitle="./".$wzdir."/"."$t[0]".".txt"; %20%20//保证保存的文件名称不是乱码 %20%20$wztitle=iconv("UTF-8",%20"GBK",%20$wztitle); %20%20$f=fopen($wztitle,"w+"); %20%20fwrite($f,$cons); %20%20echo%20"$wzdir%20".$wzchapter."写入成功"; %20%20fclose($f);%20 %20%20}%20 %20%20else{ %20%20$ids=self::getBookIdsById($id);%20 %20%20//这里服务器可能会掉线，所以最好用session记录循环 %20%20#for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){ %20%20%20#self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"]++]);//构造id %20%20#} %20%20for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){ %20%20%20self::createBookById($id."_".$ids[$i]);//构造id %20%20} %20%20#echo%20" <hr /> <hr /> <h1>写入工作全部完成</h1> "; %20%20#echo%20$id."_".$ids[0]." ";%20 %20%20#var_dump($ids); %20%20} %20} %20%20/ %20%20获取小说的所有ID %20%20@param%20$id%20文章ID %20%20@return%20array; %20%20/ %20%20public%20static%20function%20getBookIdsById($aid){%20 %20%20$ch=%20curl_init(); %20%20$url='http://www.motie.com/book/'.$aid."/chapter"; %20%20//注意这里的?可以获取最少匹配项 %20%20$ru='/[\s\S]? <li>[\s\S]?.?<\/a>.*?/u';//正则表达式匹配 %20%20//设置选项，包括URL %20%20curl_setopt($ch,%20CURLOPT_URL,%20$url); %20%20curl_setopt($ch,%20CURLOPT_RETURNTRANSFER,%201);//不自动输出内容 %20%20curl_setopt($ch,%20CURLOPT_HEADER,%200);//不返回头部信息 %20%20curl_setopt($ch,%20CURLOPT_CONNECTTIMEOUT_MS,%200);%20 %20%20//执行curl %20%20$output%20=%20curl_exec($ch); %20%20//%20检查是否有错误发生 %20%20if(curl_errno($ch)){ %20%20echo%20'Curl%20error:%20'%20.%20curl_error($ch); %20%20} %20%20//释放curl句柄 %20%20curl_close($ch); %20%20$arr=array(); %20%20preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER); %20%20return%20$arr[1]; %20%20} } ?> getinfo.php 复制代码%20代码如下: <?php %20session_start(); require_once("SpiderTools.class.php"); if($_REQUEST["bid"]){ if(is_numeric($_REQUEST["bid"])){ %20SpiderTools::createBookById(trim($_REQUEST["bid"])); %20} %20else{ %20%20echo%20" 请输入正确的文章ID "; %20} } ?> index.html 复制代码%20代码如下: <meta%20charset="utf-8"/> <title>下载小说啦
<body>

输入磨铁中文网你想看到的小说ID号就可以下载小说啦

function%20stateChanged()%20
{%20
if(xmlHttp.readyState==1){

%20document.getElementById("info").innerHTML="正在准备工作，请耐心点哦~^_^~
";
}
if(xmlHttp.readyState==2){

document.getElementById("info").innerHTML="正在联系服务器，这可能需要一点时间啦^><^
";
}

if(xmlHttp.readyState==3){

document.getElementById("info").innerHTML="正在解析数据
";
}

if (xmlHttp.readyState==4 || xmlHttp.readyState=="complete")
{

document.getElementById("info").innerHTML=xmlHttp.responseText;
//xmlHttp.abort();

}

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：php使用curl和正则表达式抓取网页数据示例_PHP

输入磨铁中文网你想看到的小说ID号就可以下载小说啦

Hi，您需要填写昵称和邮箱！