会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
青红*皂了个白
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
···
18
下一页
2019年6月6日
数据分析
摘要: 数据分析三剑客:Numpy Pandas Matplotlib 二维数组取值: attr=np.random.randint(0,100,size=(5,6)) attr[[1,2]] #取数组中的1行到2行 atr[0:3] #从第一行到第三行 attr[;,2:4] #从第3列到第4列 关于数组
阅读全文
posted @ 2019-06-06 11:39 青红*皂了个白
阅读(215)
评论(0)
推荐(0)
2019年6月4日
提高scrapy的爬取效率
摘要: 增加并发: 默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests=100 降低日志等级: 在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log=error或log=info 禁用cook
阅读全文
posted @ 2019-06-04 12:17 青红*皂了个白
阅读(339)
评论(0)
推荐(0)
2019年6月3日
关于使用selenium鼠标移动加载全部页面数据
摘要: 此处采用函数执行鼠标滑动操作,最终完成动态数据的加载(懒加载) 原理:设置 一个空列表用于存储每次鼠标拖动后的瞬间页面最大高度。每次追加页面的最新高度 在每次拖动后,重新去获取一下,当前页面的最大高度 如果获取的页面最大高度等于了列表最后的那个最大高度,说明页面到底了,跳出循环。 否则会将当前获取的
阅读全文
posted @ 2019-06-03 18:22 青红*皂了个白
阅读(806)
评论(0)
推荐(0)
scrapy框架之中间件Middleware
摘要: scrapy框架的中间件主要有两个,一个是spiderMiddleware(爬虫中间件),一个是DownloaderMiddleware(下载中间件) 通常由于在请求对象和相应对象数据在下载中间件就能处理好,一般不会去使用爬虫中间件。 下载中间件主要用到的方法有三个: process_request
阅读全文
posted @ 2019-06-03 10:55 青红*皂了个白
阅读(323)
评论(0)
推荐(0)
2019年6月1日
scrapy实现post请求与请求传参
摘要: 不推荐使用scrapy框架发送post请求,配置复杂,如果在数据量大 的情况下,可以通过如下代码来实现: 方法一:就是重写scrapy下面的start_requests方法 方法二:将URL链接写在外部,然后手动去发送请求 scrapy.FormRequest(url=url,formdata=da
阅读全文
posted @ 2019-06-01 16:54 青红*皂了个白
阅读(9003)
评论(0)
推荐(1)
2019年5月31日
利用多进程去爬取短视频
摘要: 本次目标地址为梨视频:https://www.pearvideo.com/category_59 在实现数据抓取的时候需要注意以下几点: 视频资源数据大多数网站都是加密或者隐藏在js文件或者某个文件下面的,很少有在页面能够直接解析到源地址的。 在已知视频路径的情况下,避免使用有界面浏览器或者无界面浏
阅读全文
posted @ 2019-05-31 23:44 青红*皂了个白
阅读(259)
评论(0)
推荐(0)
selenium框架的使用
摘要: selenium是浏览器自动化测试框架,使用前可直接pip install selenium安装 需要选择与当前使用浏览器匹配的驱动下载调用。本次采用Chrome 74版,Chrome驱动下载地址:http://chromedriver.storage.googleapis.com/index.ht
阅读全文
posted @ 2019-05-31 12:21 青红*皂了个白
阅读(363)
评论(0)
推荐(0)
2019年5月30日
实现简单的模拟登录网站
摘要: 本次登录站点为古诗文网 URL:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 对于验证码的解析:采用云打码API接口实现 http://www.yundama.com 主页面
阅读全文
posted @ 2019-05-30 23:17 青红*皂了个白
阅读(1453)
评论(0)
推荐(0)
2019年5月27日
爬虫回顾
摘要: 爬虫类型:通用爬虫、聚焦爬虫、增量式爬虫 在使用fiddler工具抓包时,需要注意下:因为它需要安装证书,在项目请求HTTPS页面是会ssl要求提供安全证书,可能会被拒绝请求 可以在发送requests请求时,关闭安全认证,或者暂时关闭fiddler代理。末尾也会提到,这个坑…… 使用 Beauti
阅读全文
posted @ 2019-05-27 10:47 青红*皂了个白
阅读(197)
评论(0)
推荐(0)
Anacond的安装与使用
摘要: Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖 Jupyter notebook基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于
阅读全文
posted @ 2019-05-27 09:12 青红*皂了个白
阅读(663)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
18
下一页
公告