2021 年 6月 4 日随笔档案 - 今天捡到一百块钱

2021年6月4日

摘要： Scrapy的高级用法一、Scrapy的五大核心组件 1. Scrapy Engine（引擎）用来处理整个系统的数据流，触发事务（框架核心） 2. Schedule（调度器）用来接收引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想像成一个url（抓取网页的网址或者说是链接）的优阅读全文

posted @ 2021-06-04 12:24 今天捡到一百块钱阅读(402) 评论(0) 推荐(0) 编辑

6. Scrapy的基本用法

摘要： Scrapy基础入门一、什么是Scrapy? Scrapy是一个未来爬取网站数据，提取结构性数据而编写的应用框架，在爬虫界非常出名，非常强悍。所谓的框架就是一个已经集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是学习框架的特性，各个功阅读全文

posted @ 2021-06-04 12:23 今天捡到一百块钱阅读(176) 评论(0) 推荐(0) 编辑

5. 基于Selenium实现爬虫

摘要： selenium 概念：基于浏览器自动化的模块自动化：可以通过代码指定一系列的行为动作，然后将起作用在浏览器中安装：pip install selenium selenium和爬虫之间的关系便捷的捕获到任意形式动态加载的数据模拟登录谷歌驱动下载：http://chromedriver.st 阅读全文

posted @ 2021-06-04 11:49 今天捡到一百块钱阅读(344) 评论(0) 推荐(0) 编辑

4. 异步爬虫

摘要：异步爬虫一、基于单线程的异步爬虫使用Flask搭建网站进行一部请求爬取测试 from flask import Flask,render_template import time # 实例化一个app app = Flask(__name__) # 创建视图函数&路由地址 @app.route( 阅读全文

posted @ 2021-06-04 11:35 今天捡到一百块钱阅读(117) 评论(0) 推荐(0) 编辑

3. 数据解析

摘要：数据解析正则 bs4 xpath pyquery(自学) 正则解析单字符： .：除换行以外所有字符 []：[aoe] [a-w]匹配集合中任意一个字符 \d：数字 [0-9] \D：非数字 \w：数字、字母、下划线、中文 \W：非\w \s：所有的空白字符包，括空格、制表符、换页符等等。等价于[ 阅读全文

posted @ 2021-06-04 11:34 今天捡到一百块钱阅读(104) 评论(0) 推荐(0) 编辑

2. requests的使用

摘要：一、requests基础爬虫中一个基于网络请求的模块安装：pip install requests 作用：模拟浏览器发起请求编码流程指定url 发起请求获取响应数据（爬取到的也买你源码数据）持久化存储爬取搜狗首页的源码数据 import requests # 1.指定url url = 阅读全文

posted @ 2021-06-04 11:32 今天捡到一百块钱阅读(275) 评论(0) 推荐(0) 编辑

1. 爬虫概述

摘要：一、开发环境搭建介绍 Anacanda开发环境 Anacanda是一个基于数据分析和机器学习的集成环境（给我们集成好了数据分析和机器学习对应的各种环境和模块） jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。注意事项：在环境搭建好的时候只需要安装Anacand 阅读全文

posted @ 2021-06-04 11:31 今天捡到一百块钱阅读(130) 评论(0) 推荐(0) 编辑

今天捡到一百块钱

公告