dedecms系统自带的采集步骤(本人备忘录)

首先本文仅是为本人备忘的一个记录,大神可跳过!

1、进入dedecms后台,点击采集模块-采集节点管理-添加新节点

2、选择节点名称-xx采集,选择目标页面编码-如UTF-8!

3、引用网址:(这边是你要采集的目标文章网址中的一个)。

4、列表网址规则  一般选择批量生成列表网址,如图:

5、下面是文章网址匹配规则,一般是指列表部分的匹配区域,如图:

6、文章内容设置一般需要关注的是文章内容的匹配规则及过滤规则,其他因自己需求而定,匹配规则一般是值文章正文的包裹层,如图:

文章内容过滤规则有很多,因需求而定 一般如图片等,{dede:trim replace=""}{/dede:trim}只能实现简单替换,下面是本人网上收集的过滤规则:

{dede:trim replace=""}<a([^>]*)>(.*)</a>{/dede:trim}
{dede:trim replace=""}<script([^>]*)>(.*)</script>{/dede:trim}
{dede:trim replace=""}<!--(.*)-->{/dede:trim}
{dede:trim replace=""}<table([^>]*)>(.*)</table>{/dede:trim}
{dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim}
{dede:trim replace=""}<img([^>]*)>{/dede:trim}
{dede:trim replace=""}<object([^>]*)>(.*)</object>{/dede:trim}
{dede:trim replace=""}<embed([^>]*)>(.*)</embed>{/dede:trim}
{dede:trim replace=""}<iframe([^>]*)>(.*)</iframe>{/dede:trim}
{dede:trim replace=""}<param([^>]*)>(.*)</param>{/dede:trim}
{dede:trim replace=""}<div([^.]*)>{/dede:trim}
{dede:trim replace=""}</div>{/dede:trim}
{dede:trim replace="替换后的合理内容"}采集的不符合要求的内容{/dede:trim}

 

posted on 2016-01-14 18:20  源人  阅读(370)  评论(0)    收藏  举报

导航