Python爬虫 - 随笔分类 - 努力爬行的小虫子

python爬虫之腾讯新闻网主页信息爬取

摘要：在爬取这个网站的时候，如果直接用requests进行请求，得到的HTML并没有目标数据，所以我估计这不是静态网页，而是动态网页，于是就到XHR查看了一下，果真，那些数据是在如图所示的链接中： 1 import requests 2 import json 3 headers = { 4 'User- 阅读全文

posted @ 2021-05-02 14:07 努力爬行的小虫子阅读(704) 评论(0) 推荐(0)

anaconda怎么查看安装python_anaconda安装和使用，python如何获取股票数据

摘要：链接：anaconda怎么查看安装python_anaconda安装和使用，python如何获取股票数据_weixin_39705850的博客-CSDN博客阅读全文

posted @ 2021-05-01 23:41 努力爬行的小虫子阅读(95) 评论(0) 推荐(0)

python之scrapy五大核心组件

摘要：-五大核心组件 -引擎（Scrapy） -用来处理整个系统的数据流处理，触发事务（框架核心） -调度器（Schedule) -用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想象成一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重阅读全文

posted @ 2021-04-26 13:22 努力爬行的小虫子阅读(185) 评论(0) 推荐(0)

基于Scrapy全站数据的爬取

摘要：-基于Spider的全站数据爬取 -就是将网站中某个板块下的全部页码对应的页面数据进行爬取。 -需求：爬取糗百中所有的作者和评论 -实现方式： -将所有页面的url添加到start_urls列表（不推荐） -自行手动进行请求发送（推荐） -手动请求发送： -yield scraoy.Request( 阅读全文

posted @ 2021-04-25 22:00 努力爬行的小虫子阅读(253) 评论(0) 推荐(0)

python之scrapy框架(一)

摘要：Scrapy框架第一板块：scrapy介绍、安装、基本使用 -什么是框架？ -就是一个集成了很多功能并且具有很强通用性的一个项目模板。 -如何学习框架？ -专门学习框架封装的各种功能的详细用法。 -什么是scrapy? -爬虫中封装好的一个明星框架。功能：高性能的持久化操作，异步的数据下载，高性能阅读全文

posted @ 2021-04-24 17:18 努力爬行的小虫子阅读(912) 评论(0) 推荐(0)

PYTHON爬虫之selenium（五）_无可视化界面

摘要：一、如何实现无可视化界面？先看能跳出浏览器的程序 1 from selenium import webdriver 2 from time import sleep 3 4 bro = webdriver.Chrome(executable_path='./chromedriver.exe') 5 阅读全文

posted @ 2021-02-23 20:07 努力爬行的小虫子阅读(574) 评论(0) 推荐(0)

PYHTON爬虫之selenium(四)_处理iframe

摘要：selenium处理iframe: -如果定位的标签存在于iframe标签之中，则必须使用switch_to.frame(id) -动作链（拖动）:from selenium.webdriver import ActionChains(bro) -实例化一个动作链对象： #动作链 -action=A 阅读全文

posted @ 2021-02-20 23:26 努力爬行的小虫子阅读(275) 评论(0) 推荐(0)

PYHTON爬虫之selenium(三)

摘要：基于浏览器自动化的操作代码 -发起请求:get(url) -标签定位:find系列的方法 -标签交互:send_keys(‘xxx’) -执行js程序:excute_script(‘jsCode’) -前进，后退:back() , forward() -关闭浏览器:quit() 实例二：淘宝网：ht 阅读全文

posted @ 2021-02-20 23:23 努力爬行的小虫子阅读(97) 评论(0) 推荐(0)

PYHTON爬虫之selenium(二)

摘要：-selenium使用流程 -环境安装：pip install selenium -下载一个浏览器的驱动程序 -下载路径：http://chromedriver.storage.googleapis.com/index.html -驱动程序和浏览器的映射关系：http://blog.csdn.net 阅读全文

posted @ 2021-02-20 22:39 努力爬行的小虫子阅读(86) 评论(0) 推荐(0)

PYHTON爬虫之selenium(一)

摘要：selenium启动chrome时，弹出设置页面:Windows Defender 防病毒要重置您的设置。和data页面转载自：https://blog.csdn.net/xm_csdn/article/details/84820412 1.在使用selenium打开chrome时同时打开了两个标阅读全文

posted @ 2021-02-20 21:23 努力爬行的小虫子阅读(82) 评论(0) 推荐(0)

PYTHON_异步爬虫（三）之协程（二）

摘要：一、首先创建三个服务器，代码如下： flask服务器.py 1 from flask import Flask 2 import time 3 4 app = Flask(__name__) 5 6 @app.route('/bobo') 7 def index_bobo(): 8 time.sl 阅读全文

posted @ 2021-02-20 14:23 努力爬行的小虫子阅读(129) 评论(0) 推荐(0)

PYTHON_异步爬虫（三）之协程（一）

摘要：一、异步协程的基本使用 -event_loop:事件，相当于一个无线循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行。 -coroutine:协程对象，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以使用 async 关键字来定义一个方法，这个阅读全文

posted @ 2021-02-20 13:15 努力爬行的小虫子阅读(321) 评论(0) 推荐(0)

PYTHON_异步爬虫(二）之梨视频爬取

摘要：一、梨视频获取分析、猜想、思考过程以及解决方案 -1、get访问 https://www.pearvideo.com/category_5 2、访问：https://www.pearvideo.com/video_1720499进入某个视频的详细页面问：这个响应包里的videoStatus.jsp 阅读全文

posted @ 2021-02-18 21:32 努力爬行的小虫子阅读(1884) 评论(0) 推荐(1)

PYTHON_异步爬虫(一）

摘要：高性能异步爬虫目的：在爬虫中使用异步实现高性能的数据爬取操作异步爬虫的方式： -多线程，多进程（不建议）：好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作旧可以异步执行。弊端：无法无限制的开启多线程或者多进程。 -线程池、进程池（适当的使用）：好处：我们可以降低系统对进程或者线程创阅读全文

posted @ 2021-02-18 19:09 努力爬行的小虫子阅读(311) 评论(0) 推荐(0)

模拟登录之豆瓣登录_维持会话

摘要：http/https协议特性：无状态。没有请求到对应页面数据的原因：发起的第二次基于个人主页页面请求的时候，服务器端并不知道该此请求是基于登录状态下的请求。 Cookie:用来让服务器端记录客户端的相关状态。 -手动处理：通过抓包工具获取cookie值，将该值封装到headers中。（不建议）阅读全文

posted @ 2021-02-16 22:10 努力爬行的小虫子阅读(354) 评论(0) 推荐(0)

模拟登录之验证码识别

摘要：验证码识别反爬机制：验证码，识别验证码图片中的数据，用于模拟登录操作验证码识别的操作：推荐第三方自动识别——超级鹰等实战一：古诗文网登录页面中的验证码。使用打码平台识别验证码的编码流程： -将验证码图片进行本地下载 -调用平台提供的示例代码进行图片数据识别 1 import requests 阅读全文

posted @ 2021-02-16 14:48 努力爬行的小虫子阅读(346) 评论(0) 推荐(0)

PYTHON_数据解析之xpath

摘要：xpath解析：最常用且最便捷高效的一种解析方式，通用性 -xpath解析原理： -1、实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。 -2、调用etree对象中的xpath方法结合这xpath表达式实现标签的定位和内容的捕获 -环境的安装： -pip install lx 阅读全文

posted @ 2021-02-12 22:00 努力爬行的小虫子阅读(346) 评论(0) 推荐(0)

Python_数据解析之bs4

摘要：bs4进行数据解析： -数据解析的原理： 1、标签定位 2、提取标签、标签属性中存储的数据值 -bs4数据解析的原理： 1、实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象 2、通过调用BeautifulSoup对象中相关的属性或方法进行标签定位和数据提取 -环境安装： 1、阅读全文

posted @ 2021-02-11 13:52 努力爬行的小虫子阅读(566) 评论(0) 推荐(0)

python_解析之正则表达式

摘要：一、常用的正则阅读全文

posted @ 2021-01-10 20:39 努力爬行的小虫子阅读(79) 评论(0) 推荐(0)

python 基础知识

摘要：一、数学 1、次方 2^3 代码：2**3 2、取整 9//2 =>4 二、赋值 1、可以连续赋值，与C语言不一样三、循环 1、while循环 2、for循环变量作为迭代器的作用结果： for i in range(1,3) print(i) range(1,3) =>[1,3) =>1,2 阅读全文

posted @ 2021-01-02 21:25 努力爬行的小虫子阅读(84) 评论(0) 推荐(0)

随笔分类 - Python爬虫