摘要: Scrapy的高级用法 一、Scrapy的五大核心组件 1. Scrapy Engine(引擎) 用来处理整个系统的数据流,触发事务(框架核心) 2. Schedule(调度器) 用来接收引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想像成一个url(抓取网页的网址或者说是链接)的优 阅读全文
posted @ 2021-06-04 12:24 今天捡到一百块钱 阅读(402) 评论(0) 推荐(0) 编辑
摘要: Scrapy基础入门 一、什么是Scrapy? Scrapy是一个未来爬取网站数据,提取结构性数据而编写的应用框架,在爬虫界非常出名,非常强悍。所谓的框架就是一个已经集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是学习框架的特性,各个功 阅读全文
posted @ 2021-06-04 12:23 今天捡到一百块钱 阅读(176) 评论(0) 推荐(0) 编辑
摘要: selenium 概念:基于浏览器自动化的模块 自动化:可以通过代码指定一系列的行为动作,然后将起作用在浏览器中 安装:pip install selenium selenium和爬虫之间的关系 便捷的捕获到任意形式动态加载的数据 模拟登录 谷歌驱动下载:http://chromedriver.st 阅读全文
posted @ 2021-06-04 11:49 今天捡到一百块钱 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 异步爬虫 一、基于单线程的异步爬虫 使用Flask搭建网站进行一部请求爬取测试 from flask import Flask,render_template import time # 实例化一个app app = Flask(__name__) # 创建视图函数&路由地址 @app.route( 阅读全文
posted @ 2021-06-04 11:35 今天捡到一百块钱 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 数据解析 正则 bs4 xpath pyquery(自学) 正则解析 单字符: .:除换行以外所有字符 []:[aoe] [a-w]匹配集合中任意一个字符 \d:数字 [0-9] \D:非数字 \w:数字、字母、下划线、中文 \W:非\w \s:所有的空白字符包,括空格、制表符、换页符等等。等价于[ 阅读全文
posted @ 2021-06-04 11:34 今天捡到一百块钱 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 一、requests基础 爬虫中一个基于网络请求的模块 安装:pip install requests 作用:模拟浏览器发起请求 编码流程 指定url 发起请求 获取响应数据(爬取到的也买你源码数据) 持久化存储 爬取搜狗首页的源码数据 import requests # 1.指定url url = 阅读全文
posted @ 2021-06-04 11:32 今天捡到一百块钱 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 一、开发环境搭建介绍 Anacanda开发环境 Anacanda是一个基于数据分析和机器学习的集成环境(给我们集成好了数据分析和机器学习对应的各种环境和模块) jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。 注意事项: 在环境搭建好的时候只需要安装Anacand 阅读全文
posted @ 2021-06-04 11:31 今天捡到一百块钱 阅读(130) 评论(0) 推荐(0) 编辑