上一页 1 ··· 15 16 17 18 19
摘要: Python continue 语句跳出本次循环 当需要跳过本次循环的时候,使用continue能跳过本次循环,直接下一个循环 如下脚本: alllink是一个url链接数组 从这个数组内循环读取链接 然后判断链接是否与事先定义好的firstlink一致 如果一致,则跳过这次循环,读取下一个链接执行 阅读全文
posted @ 2019-08-11 20:00 小贝书屋 阅读(20615) 评论(0) 推荐(0)
摘要: 实例一: 上图所示 爬虫返回的链接有一部分带有http前缀,有一部分没有,且也不知道具体哪些链接会出现没有前缀的情况 后面如果通过返回链接进行再次访问,那么肯定会出现报错的问题 思路: 判断 返回值内是否包含某内容 比如判断返回值是否含有“www” 如果有,则跳过,没有则加上前缀 构造链接 代码如下 阅读全文
posted @ 2019-08-11 16:59 小贝书屋 阅读(1643) 评论(0) 推荐(0)
摘要: 面讲的方法只适用于返回值长度固定的内容,长度不固定,每次取得值就不会一样 案例1: 比如,我们需要取出“提取码: y3rx ”“:”后面的“y3rx” 目标数据在内容的第5位到第9位,做左侧为第1位,冒号后面有一位空格,也算一位数据。从左到右索引默认0开始的 代码如下: C = “提取码: y3rx 阅读全文
posted @ 2019-08-11 16:52 小贝书屋 阅读(3293) 评论(0) 推荐(0)
摘要: 代码A如下: 打印结果: (5, 3, 4, 5, 6) 代码B如下: 打印结果: 5 3 4 5 6 乍一看两个程序一样 但是结果确实不一样的 一个横着显示 一个竖着显示 。其实最大的区别在于 return kargs后面有个逗号 表示变换行了 阅读全文
posted @ 2019-08-11 16:46 小贝书屋 阅读(370) 评论(0) 推荐(0)
摘要: 案例一: 某套图网站,套图以封面形式展现在页面,需要依次点击套图,点击广告盘链接,最后到达百度网盘展示页面。 这一过程通过爬虫来实现,收集百度网盘地址和提取码,采用xpath爬虫技术 1、首先分析图片列表页,该页按照更新先后顺序暂时套图封面,查看HTML结构。每一组“li”对应一组套图。属性href 阅读全文
posted @ 2019-08-11 16:42 小贝书屋 阅读(9043) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19