抛砖引玉 通用新闻采集系统的一个小应用--网络热点(madxw.com)
网页内容采集不是什么新鲜事,能做到通用的却不多,最近研究了一下总结了两个方法.
其一 最大容器法,就是包含内容的HTML标记的高宽面积通常都是最大的,这里需要排除宽度小于一定值的标记,并且由于标记可嵌套,所以还得找到直接包含内容的标记,而不是其父标记.此法在应用中需要一些问题,如果要取到标记的高宽面积需要完全加载网页文档,对采集速度有致命影响,另外就是经常在采集过程中报异常.
其二 即内容框定法,就是首先定位标题,通常来讲内容都是位于标题的下方,利用正则的强大功能将标题内容匹配出来.
取了内容后还有一些后续工作,需要对其中的图片作全地址处理,图片下面的备注居中,视频内容的提取等.
希望能起到抛砖引玉的作用
放上一个通用新闻采集系统的一个小应用,请大家帮忙测试讨论
网络热点 madxw.com
其一 最大容器法,就是包含内容的HTML标记的高宽面积通常都是最大的,这里需要排除宽度小于一定值的标记,并且由于标记可嵌套,所以还得找到直接包含内容的标记,而不是其父标记.此法在应用中需要一些问题,如果要取到标记的高宽面积需要完全加载网页文档,对采集速度有致命影响,另外就是经常在采集过程中报异常.
其二 即内容框定法,就是首先定位标题,通常来讲内容都是位于标题的下方,利用正则的强大功能将标题内容匹配出来.
取了内容后还有一些后续工作,需要对其中的图片作全地址处理,图片下面的备注居中,视频内容的提取等.
希望能起到抛砖引玉的作用
放上一个通用新闻采集系统的一个小应用,请大家帮忙测试讨论
网络热点 madxw.com

浙公网安备 33010602011771号