2018 年 11月 5 日随笔档案 - 扎心了，老铁

2018年11月5日

摘要：爬取所有页面之前只是爬取某一篇文章的内容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新启动scrapy的shell parse函数需要做两件事获取列表页中的所有文章URL 获取所有URL之后将其交给scra 阅读全文

posted @ 2018-11-05 15:07 扎心了，老铁阅读(1719) 评论(0) 推荐(0) 编辑

爬取伯乐在线文章（二）通过xpath提取源文件中需要的内容

摘要：爬取说明以单个页面为例，如：http://blog.jobbole.com/110287/ 我们可以提取标题、日期、多少个评论、正文内容等 Xpath介绍 1.　xpath简介（1）　xpath使用路径表达式在xml和html中进行导航（2）　xpath包含标准函数库（3）　xpath是一个阅读全文

posted @ 2018-11-05 10:48 扎心了，老铁阅读(1908) 评论(1) 推荐(0) 编辑

扎心了，老铁

公告