页首Html代码

返回顶部

马克斯4.0 采集规则的编写

当配置好 MaXCMS 后,进入后台,比如我的是:http://localhost/maxcms/admin/index.asp

第一步 设置基本参数

选择采集主菜单,点击 添加采集规则(我的其实是修改,不过和添加规则的流程一样。此处讲解主要是通过修改别人的,来了解采集规则的编写)

maxcms-1

目标站点网址:http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-1-12.html

======

这个就是列表的第一页

批量生成采集地址:http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-{$ID}-12.html

=======

这个是通过分页,具有相类似的URL的网址,通常都是一个ID的改变而已,比如 第一页就是xxx-1-12.html ,第二页就是xxx-2-12.html

其他

=======

播放来源要选择好,如果目标不再这个上面,应该 不可以采集!!有能力的研究下,自己该下源码,添加下规则。

分页设置,这里是采集分页形式的,也可以采集单个页面

内容过滤设置,这个应该是 只采集 或者 不采集 这些标签的。看样子应该是只采集这些标签内容。

下一步 采集列表连接设置  

这个页面是最关键的设置。需要对前面的 http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-1-12.html 的源代码进行分析。

目标区域列表就是右边的那些,可以看到这块的上下 在源码理有相应的注释,那么 列表开始 和 列表结束 就是 这两个注释了。其他情况可能没有注释,需要找一些 带有 class或者id 的div块来区分了。

下面的 在源码里,图片下面的电影的链接 是 <a target="_blank" href="http://www.juchang.com/film/123311.html" title="成家立业">成家立业</a>

链接开始:<a target="_blank" href="

链接结束:"

第三步:采集内容与数据地址设置

在第三步理的设置才是更细节的内容呢。此时,这个步骤设置的就是电影播放的页面的详细信息了。比如就是上面的那个链接:http://www.juchang.com/film/123311.html

根据这些名称,对照者源码,进行查找。应该是必须找到唯一的,才算。这个比较累人。麻烦。我这个应该是过时了,需要更新的。

回来再补充完善。通过研究,我发现制作一些采集规则还是比较折腾的,还可以。就是没有方便的教程。

posted @ 2011-08-02 12:59  ayanmw  阅读(14789)  评论(5编辑  收藏  举报

页脚Html代码