小贝书屋 - 博客园

2019年8月

摘要： Python continue 语句跳出本次循环当需要跳过本次循环的时候，使用continue能跳过本次循环，直接下一个循环如下脚本： alllink是一个url链接数组从这个数组内循环读取链接然后判断链接是否与事先定义好的firstlink一致如果一致，则跳过这次循环，读取下一个链接执行阅读全文

posted @ 2019-08-11 20:00 小贝书屋阅读(20615) 评论(0) 推荐(0)

链接拼接的方法（用于解决同一个脚本返回两种不同的url链接的问题）

摘要：实例一：上图所示爬虫返回的链接有一部分带有http前缀，有一部分没有，且也不知道具体哪些链接会出现没有前缀的情况后面如果通过返回链接进行再次访问，那么肯定会出现报错的问题思路：判断返回值内是否包含某内容比如判断返回值是否含有“www” 如果有，则跳过，没有则加上前缀构造链接代码如下阅读全文

posted @ 2019-08-11 16:59 小贝书屋阅读(1643) 评论(0) 推荐(0)

python返回值内取出某一段数据的方法

摘要：面讲的方法只适用于返回值长度固定的内容，长度不固定，每次取得值就不会一样案例1：比如，我们需要取出“提取码: y3rx ”“：”后面的“y3rx” 目标数据在内容的第5位到第9位，做左侧为第1位，冒号后面有一位空格，也算一位数据。从左到右索引默认0开始的代码如下： C = “提取码: y3rx 阅读全文

posted @ 2019-08-11 16:52 小贝书屋阅读(3293) 评论(0) 推荐(0)

if循环后打印数据竖行输出和横排输出

摘要：代码A如下：打印结果： (5, 3, 4, 5, 6) 代码B如下：打印结果： 5 3 4 5 6 乍一看两个程序一样但是结果确实不一样的一个横着显示一个竖着显示。其实最大的区别在于 return kargs后面有个逗号表示变换行了阅读全文

posted @ 2019-08-11 16:46 小贝书屋阅读(370) 评论(0) 推荐(0)

python实例：某套图网站爬虫

摘要：案例一：某套图网站，套图以封面形式展现在页面，需要依次点击套图，点击广告盘链接，最后到达百度网盘展示页面。这一过程通过爬虫来实现，收集百度网盘地址和提取码，采用xpath爬虫技术 1、首先分析图片列表页，该页按照更新先后顺序暂时套图封面，查看HTML结构。每一组“li”对应一组套图。属性href 阅读全文

posted @ 2019-08-11 16:42 小贝书屋阅读(9043) 评论(0) 推荐(0)

公告