python爬虫之腾讯新闻网主页信息爬取
摘要:在爬取这个网站的时候,如果直接用requests进行请求,得到的HTML并没有目标数据,所以我估计这不是静态网页,而是动态网页,于是就到XHR查看了一下,果真,那些数据是在如图所示的链接中: 1 import requests 2 import json 3 headers = { 4 'User-
阅读全文
anaconda怎么查看安装python_anaconda安装和使用,python如何获取股票数据
摘要:链接:anaconda怎么查看安装python_anaconda安装和使用,python如何获取股票数据_weixin_39705850的博客-CSDN博客
阅读全文
python之scrapy五大核心组件
摘要:-五大核心组件 -引擎(Scrapy) -用来处理整个系统的数据流处理,触发事务(框架核心) -调度器(Schedule) -用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个URL(抓取网页的网址或者说是链接)的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重
阅读全文
基于Scrapy全站数据的爬取
摘要:-基于Spider的全站数据爬取 -就是将网站中某个板块下的全部页码对应的页面数据进行爬取。 -需求:爬取糗百中所有的作者和评论 -实现方式: -将所有页面的url添加到start_urls列表(不推荐) -自行手动进行请求发送(推荐) -手动请求发送: -yield scraoy.Request(
阅读全文
python之scrapy框架(一)
摘要:Scrapy框架 第一板块:scrapy介绍、安装、基本使用 -什么是框架? -就是一个集成了很多功能并且具有很强通用性的一个项目模板。 -如何学习框架? -专门学习框架封装的各种功能的详细用法。 -什么是scrapy? -爬虫中封装好的一个明星框架。功能:高性能的持久化操作,异步的数据下载,高性能
阅读全文
PYTHON爬虫之selenium(五)_无可视化界面
摘要:一、如何实现无可视化界面? 先看能跳出浏览器的程序 1 from selenium import webdriver 2 from time import sleep 3 4 bro = webdriver.Chrome(executable_path='./chromedriver.exe') 5
阅读全文
PYHTON爬虫之selenium(四)_处理iframe
摘要:selenium处理iframe: -如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id) -动作链(拖动):from selenium.webdriver import ActionChains(bro) -实例化一个动作链对象: #动作链 -action=A
阅读全文
PYHTON爬虫之selenium(三)
摘要:基于浏览器自动化的操作代码 -发起请求:get(url) -标签定位:find系列的方法 -标签交互:send_keys(‘xxx’) -执行js程序:excute_script(‘jsCode’) -前进,后退:back() , forward() -关闭浏览器:quit() 实例二:淘宝网:ht
阅读全文
PYHTON爬虫之selenium(二)
摘要:-selenium使用流程 -环境安装:pip install selenium -下载一个浏览器的驱动程序 -下载路径:http://chromedriver.storage.googleapis.com/index.html -驱动程序和浏览器的映射关系:http://blog.csdn.net
阅读全文
PYHTON爬虫之selenium(一)
摘要:selenium启动chrome时,弹出设置页面:Windows Defender 防病毒要重置您的设置。和data页面 转载自:https://blog.csdn.net/xm_csdn/article/details/84820412 1.在使用selenium打开chrome时同时打开了两个标
阅读全文
PYTHON_异步爬虫(三)之协程(二)
摘要:一、 首先创建三个服务器,代码如下: flask服务器.py 1 from flask import Flask 2 import time 3 4 app = Flask(__name__) 5 6 @app.route('/bobo') 7 def index_bobo(): 8 time.sl
阅读全文
PYTHON_异步爬虫(三)之协程(一)
摘要:一、异步协程的基本使用 -event_loop:事件,相当于一个无线循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。 -coroutine:协程对象,我们可以将协程对象注册到事件循环中,它会被事件循环调用。 我们可以使用 async 关键字来定义一个方法,这个
阅读全文
PYTHON_异步爬虫(二)之梨视频爬取
摘要:一、梨视频获取分析、猜想、思考过程以及解决方案 -1、get访问 https://www.pearvideo.com/category_5 2、访问:https://www.pearvideo.com/video_1720499进入某个视频的详细页面 问:这个响应包里的videoStatus.jsp
阅读全文
PYTHON_异步爬虫(一)
摘要:高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作 异步爬虫的方式: -多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作旧可以异步执行。 弊端:无法无限制的开启多线程或者多进程。 -线程池、进程池(适当的使用): 好处:我们可以降低系统对进程或者线程创
阅读全文
模拟登录之豆瓣登录_维持会话
摘要:http/https协议特性:无状态。 没有请求到对应页面数据的原因: 发起的第二次基于个人主页页面请求的时候,服务器端并不知道该此请求是基于登录状态下的请求。 Cookie:用来让服务器端记录客户端的相关状态。 -手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
阅读全文
模拟登录之验证码识别
摘要:验证码识别 反爬机制:验证码,识别验证码图片中的数据,用于模拟登录操作 验证码识别的操作:推荐第三方自动识别——超级鹰等 实战一:古诗文网登录页面中的验证码。 使用打码平台识别验证码的编码流程: -将验证码图片进行本地下载 -调用平台提供的示例代码进行图片数据识别 1 import requests
阅读全文
PYTHON_数据解析之xpath
摘要:xpath解析:最常用且最便捷高效的一种解析方式,通用性 -xpath解析原理: -1、实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 -2、调用etree对象中的xpath方法结合这xpath表达式实现标签的定位和内容的捕获 -环境的安装: -pip install lx
阅读全文
Python_数据解析之bs4
摘要:bs4进行数据解析: -数据解析的原理: 1、标签定位 2、提取标签、标签属性中存储的数据值 -bs4数据解析的原理: 1、实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象 2、通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取 -环境安装: 1、
阅读全文
python 基础知识
摘要:一、数学 1、次方 2^3 代码:2**3 2、取整 9//2 =>4 二、赋值 1、可以连续赋值,与C语言不一样 三、循环 1、while循环 2、for循环 变量作为迭代器的作用 结果: for i in range(1,3) print(i) range(1,3) =>[1,3) =>1,2
阅读全文