山水无期

2021年8月6日

摘要：一、缘由有的时候为了提高爬虫的效率，那么就需要使用各种方法来提高爬虫的效率，无疑多线程是一个非常好的选择。不过在使用的时候，一定要控制好爬取的速率，短时间的访问量不要太大。第一，避免给别人家的服务器造成比较大的影响。第二，方式你的IP或者你的账号被封禁。即使出现第二种情况的时候，我们可以使用由代理阅读全文

posted @ 2021-08-06 00:15 山水无期阅读(111) 评论(0) 推荐(0)

使用pandas处理数据和matplotlib生成可视化图表

摘要：一、缘由上一篇输入关键词“口红”，将淘宝中的的相关商品信息全部爬取了下拉，并且以CSV的文件格式储存。我们拿到数据之后，那么就需要对数据进行处理。只是将爬取到的数据以更直观的方式——图表呈现出来。并且最后使用jieba、wordcloud来对商品名称进行词云的分析。二、代码实现话不多说，直接上阅读全文

posted @ 2021-08-06 00:03 山水无期阅读(485) 评论(0) 推荐(0)

2021年8月5日

使用selenium爬取淘宝

摘要：一、出现的问题前段时间在使用selenium对淘宝进行模拟登陆的时候，输入完正好和密码，然后验证码无论如何都不能划过去。找了好久，原来是因为selenium在浏览器中运行的时候会暴露一些特征变量，被识别出来是爬虫，所以无法进行登录操作。如在非selenium运行的时候"window.naviga 阅读全文

posted @ 2021-08-05 23:43 山水无期阅读(877) 评论(0) 推荐(0)

pandas中groupby的使用

摘要：一、缘由在爬取大量的数据之后，需要对数据进行分组的处理，于是就使用了groupby，但是我需要的并不是分组之后数据的聚合分析，我需要的是原生的某些数据。但是却找不到网上的相关案例。于是，我就自己尝试的进行。终于找到了去找原生数据的方法了。二、具体实现 1、先看一个简单和基础的 for i in 阅读全文

posted @ 2021-08-05 19:33 山水无期阅读(311) 评论(0) 推荐(0)

pandas中loc和iloc的使用细节

摘要： 1、缘由前段时间在使用pandas库中的索引和切片的时候，突然就感觉有点懵，赋值和索引的操作总是报错。网上的很多资料讲的也非常的浅显，而且使用起来非常不顺手。于是我就找到很多的网上资料，然后自己动手操作总结了一下。 2、细节内容 1、loc 对应的是原生索引，对应的是序列号，索引的设置只能是数阅读全文

posted @ 2021-08-05 18:57 山水无期阅读(958) 评论(0) 推荐(0)

2021年8月4日

python算法初步（一）

摘要： python算法初步（一）冒泡排序时间效率O(n²)原理：依次比较相邻两个位置的元素大小，然后按照要求交换位置。 #从中选出一个数据（作为最小数据），然后和其他的数据依次比较，如果有更小的数据，那么就一次比较。 def select_sort(data): for i in range(len( 阅读全文

posted @ 2021-08-04 18:53 山水无期阅读(49) 评论(0) 推荐(0)

公告