Python爬虫技巧

Python爬虫技巧一之设置ADSL拨号服务器代理

reference: https://zhuanlan.zhihu.com/p/25286144

 

爬取数据时,是不是只能每个网站每个网站的分析,有没有通用的方式

做爬虫也好多年了,一般抓取网站中的标题,文章发布时间,正文,文章图片。可以做到 80%用通用规则解决。
1,标题:在提取链接的时候把 link title 保存下来 
2,文章发布时间:用网页 heads 里的 last modify 
3,抽取正文:有开源的模块( Python 有 readability-lxml,Java 有 JoyHtml 
4,文章图片:在抽取的正文中提取<img>

posted on 2017-03-26 23:13  alex.shu  阅读(468)  评论(0编辑  收藏  举报

导航