大家好,我正在做正则匹配,想把以下属性名称(如颜色分类和套餐类型)和属性值(白色,黑色,套餐一,套餐二,套餐三)抽取出来,我的做法是先把每个
中间的内容通过正则匹配出来,然后用程序再把 里面的
和 属性值匹配出来,但是第一步就测试失败:/<dl class=\"J_Prop(?P.*)<\/dl> 我用的是这个样的正则匹配每个
,但是一直弄不好,请高手指点,谢谢。
- 颜色分类
-
-
白色
已选中
-
黑色
已选中
-
- 套餐类型
-
-
套餐一
已选中
-
套餐二
已选中
-
套餐三
已选中
-
回复讨论(解决方案)
//自己到网上下一个include('simple_html_dom.php');$dom=new simple_html_dom();$dom->load($s);//$s 就是你的html$dls=$dom->find('dl');$res=array();foreach($dls as $k=>$dl){ $res[$k]['type']=$dl->find('dt')[0]->text(); foreach($dl->find('li') as $k1=>$li){ $res[$k][] = $li->find('span')[0]->text(); }}echo "<pre class="prettyprint linenums">";print_r($res);echo "
“;/*Array( [0] => Array ( [type] => 颜色分类 [0] => 白色 [1] => 黑色 ) [1] => Array ( [type] => 套餐类型 [0] => 套餐一 [1] => 套餐二 [2] => 套餐三 ))*/
$s =<<< HTML<dl class="J_Prop tb-prop tb-clear J_Prop_Color "> <dt class="tb-property-type">颜色分类</dt> <dd> <ul class="J_TSaleProp tb-img tb-clearfix"> <li class="tb-txt"> <span>白色</span> <i>已选<span>!本文来源gaodai#ma#com搞*!代#%^码网5</span><pre>搞gaodaima代码
中
- 套餐类型
-
- 套餐一 已选中
- 套餐二 已选中
- 套餐三 已选中
HTML;preg_match_all(‘#
- (.+?)
#is’, $s, $m);foreach($m[1] as $i=>$v) { preg_match_all(‘#(.+)#isU’, $v, $m); $r[$i] = $m[2];}print_r($r);
Array( [0] => Array ( [0] => 颜色分类 [1] => 白色 [2] => 黑色 ) [1] => Array ( [0] => 套餐类型 [1] => 套餐一 [2] => 套餐二 [3] => 套餐三 ))