simple_html_dom轻量级网页解析库
simple_html_dom是一个开源的轻量级网页解析器,此库支持的选择器不是特别多,但配合一下php自带的字符串处理函数使用已经绰绰有余。这是一个中文文档。
http://www.ecartchina.com/php-simple-html-dom/manual.htm
此库多资源占用也不是很多,我写的一个小程序,使用apache+mysql解析一个复杂的网页,apache只占27M内存,资源占用的表现上很满意。这个库同样有其他库共有的中文乱码问题,解析gbk编码时,tag里边的中文被解析为乱码。但是如果使用innertext输出,就不是乱码了。
大部分时候,遇到奇形怪状的网页本库都能很好的解析,但遇到个别极端情况也不一定非得找正则。这时候可以调用php自带的字符串处理函数解决大部分问题。毕竟正则引擎太耗费资源了。
能用的的几个函数为: strrchr,explode,strpos,substr.
$page_pos= strpos($html_content, "当前页:");
if($page_pos==false)
{
$pages=1;
}
else
{
$pages= strchr($html_content, "当前页");
//echo $pages;
$items= explode('/', $pages);
$items= explode(" 第", $items[1]);
$pages=$items[0];
}
$html_content为一个div的innertext.
浙公网安备 33010602011771号