网络抓取--简单随笔1


简单思路:
    根据http协议
    对某一url发出请求(设置关键的请求头);
  得到反馈结果并保存成字符串(关键是charset避免乱码);
    对字符串解析生成html对象集合(html解析);
    针对每个网站做人工分析,设置解析参数(节点名/属性:属性值/位置/个数/...);
    根据参数解析html对象得到所需结果(新闻/作者/日期/...);

js:
   很多站点不能直接得到具体内容,而是通过js处理其他相关文件显示于页面中(或称为ajax)
   此类站点关键是找到相关文件的url(具体内容均在这里)
   如:sohu论坛 通过<script src="http://mirror7.***" />加载   (解析html可得到)
       sina博客
    博主:http://blog.sina.com.cn/s/blog_475b3d560100dnjy.html
    评论:http://blog.sina.com.cn/s/comment_475b3d560100dnjy_4.html    (通过httpwatch得到)
   ...

博客搬家工具:
    猜想此类工具就是通过网页抓取原理实现的.

----网页抓取具有针对性,抓取特定内容需要人工分析网站代码.
posted on 2009-09-04 16:53  走向前  阅读(186)  评论(0编辑  收藏  举报