dedecms系统自带的采集步骤(本人备忘录)
首先本文仅是为本人备忘的一个记录,大神可跳过!
1、进入dedecms后台,点击采集模块-采集节点管理-添加新节点
2、选择节点名称-xx采集,选择目标页面编码-如UTF-8!
3、引用网址:(这边是你要采集的目标文章网址中的一个)。
4、列表网址规则 一般选择批量生成列表网址,如图:
5、下面是文章网址匹配规则,一般是指列表部分的匹配区域,如图:
6、文章内容设置一般需要关注的是文章内容的匹配规则及过滤规则,其他因自己需求而定,匹配规则一般是值文章正文的包裹层,如图:
文章内容过滤规则有很多,因需求而定 一般如图片等,{dede:trim replace=""}{/dede:trim}只能实现简单替换,下面是本人网上收集的过滤规则:
{dede:trim replace=""}<a([^>]*)>(.*)</a>{/dede:trim} {dede:trim replace=""}<script([^>]*)>(.*)</script>{/dede:trim} {dede:trim replace=""}<!--(.*)-->{/dede:trim} {dede:trim replace=""}<table([^>]*)>(.*)</table>{/dede:trim} {dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim} {dede:trim replace=""}<img([^>]*)>{/dede:trim} {dede:trim replace=""}<object([^>]*)>(.*)</object>{/dede:trim} {dede:trim replace=""}<embed([^>]*)>(.*)</embed>{/dede:trim} {dede:trim replace=""}<iframe([^>]*)>(.*)</iframe>{/dede:trim} {dede:trim replace=""}<param([^>]*)>(.*)</param>{/dede:trim} {dede:trim replace=""}<div([^.]*)>{/dede:trim} {dede:trim replace=""}</div>{/dede:trim} {dede:trim replace="替换后的合理内容"}采集的不符合要求的内容{/dede:trim}