上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页
摘要: 一、介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis,然后重写Scrapy的Scheduler,让新的Schedul 阅读全文
posted @ 2019-12-01 19:25 小王八+1 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文
posted @ 2019-11-29 17:06 小王八+1 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一、简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库 优点:易用性、易拓展性、性能卓越、丰富的功能(索引、聚合、特殊集合、文件存储) 二、基础知识 1、文档是MongoDB的核心概念 需要注意的是: #1、文档中的键/值对是有序的。 #2、文档中的值不仅可以是在双引号里面的字符串,还可 阅读全文
posted @ 2019-11-28 20:38 小王八+1 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium 阅读全文
posted @ 2019-11-27 21:06 小王八+1 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 1、https://www.autohome.com.cn/news/1/#liststart 检查代码 2、爬取代码 #爬取的地址 # https://www.autohome.com.cn/news/1/#liststart from bs4 import BeautifulSoup impor 阅读全文
posted @ 2019-11-26 20:00 小王八+1 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文
posted @ 2019-11-26 16:17 小王八+1 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 #安装 阅读全文
posted @ 2019-11-26 15:18 小王八+1 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1、请求Headers里 URL请求地址,分析得出加载视频个数 1625830,1625746,等等为加载更多视频过滤条件 2、去除后缀,拿原始链接可以请求数据 分析得知start=0 为第一个视频 3、查看源代码,下面为真实数据请求地址 4、代码 # 获取视频 import re res = re 阅读全文
posted @ 2019-11-25 21:50 小王八+1 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫介绍: -本质, -就是想网站发送http请求,拿回一些页面/json格式数据(request) -处理数据,解析出有用的东西(re,bs4) -存储(mysql,文件,cvs,redis,MongoDB,es) -分析 -cookie池和代理池 -爬视频 -正向代理和反向代理 (正向代理- 阅读全文
posted @ 2019-11-25 20:53 小王八+1 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 虚拟环境配置 cmd敲 workon 确认是否配置环境 1、配置 安装 # 建议使用pip3安装到python3环境下 pip3 install virtualenv pip3 install virtualenvwrapper-win macOS系统 # 建议使用pip3安装到python3环境下 阅读全文
posted @ 2019-11-15 12:14 小王八+1 阅读(307) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页