爬虫 - 文章分类 - -Rye-

Requests模块

摘要：本文目录一 Requests模块简介二基于GET请求三基于POST请求四响应Response 五高级用法六案例回到目录一 Requests模块简介 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装阅读全文

posted @ 2019-08-14 22:32 -Rye- 阅读(96) 评论(0) 推荐(0)

Beautifulsoup模块

摘要：本文目录一 Beautifulsoup模块介绍二基本使用三遍历文档树四搜索文档树五修改文档树六总结回到目录一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档阅读全文

posted @ 2019-08-14 22:30 -Rye- 阅读(94) 评论(0) 推荐(0)

Scrapy框架

摘要：本文目录一介绍二安装三命令行工具四项目结构以及爬虫应用简介五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Middeware 十 Spider Middleware 十一自定义扩展十二 settings.py 阅读全文

posted @ 2019-08-14 22:29 -Rye- 阅读(106) 评论(0) 推荐(0)

爬虫基本原理

摘要：阅读目录一介绍二基于GET请求三基于POST请求四响应Response 五高级用法六课后作业一介绍 Python内置为我们提供了一个内置的模块叫urllib，是用于访问网络资源的，但是由于它内部缺少一些实用的功能，所以用起来比较麻烦。后来出现了一个第三方模块叫 "Reque 阅读全文

posted @ 2019-08-05 09:56 -Rye- 阅读(574) 评论(0) 推荐(0)

破解极验滑动验证码

摘要：from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的可以拖动图片 import time from PIL import Image import random option = webdriver.ChromeOptions() optio... 阅读全文

posted @ 2019-08-05 09:55 -Rye- 阅读(259) 评论(0) 推荐(0)

破解优酷视频（平台被封了，可以借鉴思路）

摘要：目录一破解优酷VIP视频一破解优酷VIP视频 import requests import re import json HEADERS = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKi 阅读全文

posted @ 2019-08-05 09:54 -Rye- 阅读(3634) 评论(0) 推荐(0)

python selenium 三种等待方式详解（实战常用）

摘要：引言：当你觉得你的定位没有问题，但是却直接报了元素不可见，那你就可以考虑是不是因为程序运行太快或者页面加载太慢造成了元素不可见，那就必须要加等待了，等待元素可见再继续运行程序；注：当使用该放发的时候可以参照这个视频 https://www.bilibili.com/video/av1905714 阅读全文

posted @ 2019-08-05 09:54 -Rye- 阅读(585) 评论(0) 推荐(0)

下载器中间件中添加代理的方式

摘要：from scrapy.utils.python import to_bytes try: from urllib2 import _parse_proxy except ImportError: from urllib.request import _parse_proxy from six.moves.urllib.parse import unquote import ba... 阅读全文

posted @ 2019-08-05 09:53 -Rye- 阅读(182) 评论(0) 推荐(0)

爬取抽屉网全文实战（基于scrapy模块）

摘要：一、先安装scrapy 1. pip3 install wheel 2. pip3 install lxml 3. pip3 install pyopenssl 4. pip3 install -i https://mirrors.aliyun.com/pypi/simple/ pypiwin32 阅读全文

posted @ 2019-08-05 09:52 -Rye- 阅读(243) 评论(0) 推荐(0)

爬虫之scrapy（爬取抽屉网的所有信息，如果网的IP被封就需要用代理软件，如花生代理软件，一般手机热点是不会被封IP的）

摘要：Scrapy 一、安装二、scrapy命令三、创建scrapy项目列表 spider_project.spiders下的chouti.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from spider_ 阅读全文

posted @ 2019-08-05 09:52 -Rye- 阅读(410) 评论(0) 推荐(0)

-Rye-

文章分类 - 爬虫

公告