用代码诠释人生

Interpretation of life with the code

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 :: 管理 ::

抛砖引玉 通用新闻采集系统的一个小应用--网络热点(madxw.com)

网页内容采集不是什么新鲜事,能做到通用的却不多,最近研究了一下总结了两个方法.

其一 最大容器法,就是包含内容的HTML标记的高宽面积通常都是最大的,这里需要排除宽度小于一定值的标记,并且由于标记可嵌套,所以还得找到直接包含内容的标记,而不是其父标记.此法在应用中需要一些问题,如果要取到标记的高宽面积需要完全加载网页文档,对采集速度有致命影响,另外就是经常在采集过程中报异常.

其二 即内容框定法,就是首先定位标题,通常来讲内容都是位于标题的下方,利用正则的强大功能将标题内容匹配出来.

取了内容后还有一些后续工作,需要对其中的图片作全地址处理,图片下面的备注居中,视频内容的提取等.

希望能起到抛砖引玉的作用

放上一个通用新闻采集系统的一个小应用,请大家帮忙测试讨论

网络热点 madxw.com
posted on 2011-04-26 11:44  cai919  阅读(117)  评论(0)    收藏  举报