文章分类 - 爬虫
摘要:本文目录 一 Requests模块简介 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 六 案例 回到目录 一 Requests模块简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装
阅读全文
摘要:本文目录 一 Beautifulsoup模块介绍 二 基本使用 三 遍历文档树 四 搜索文档树 五 修改文档树 六 总结 回到目录 一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档
阅读全文
摘要:本文目录 一 介绍 二 安装 三 命令行工具 四 项目结构以及爬虫应用简介 五 Spiders 六 Selectors 七 Items 八 Item Pipeline 九 Dowloader Middeware 十 Spider Middleware 十一 自定义扩展 十二 settings.py
阅读全文
摘要:阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 六 课后作业 一 介绍 Python内置为我们提供了一个内置的模块叫urllib,是用于访问网络资源的,但是由于它内部缺少一些实用的功能,所以用起来比较麻烦。后来出现了一个第三方模块叫 "Reque
阅读全文
摘要:from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 import time from PIL import Image import random option = webdriver.ChromeOptions() optio...
阅读全文
摘要:目录 一 破解优酷VIP视频 一 破解优酷VIP视频 import requests import re import json HEADERS = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKi
阅读全文
摘要:引言: 当你觉得你的定位没有问题,但是却直接报了元素不可见,那你就可以考虑是不是因为程序运行太快或者页面加载太慢造成了元素不可见,那就必须要加等待了,等待元素可见再继续运行程序; 注:当使用该放发的时候可以参照这个视频 https://www.bilibili.com/video/av1905714
阅读全文
摘要:from scrapy.utils.python import to_bytes try: from urllib2 import _parse_proxy except ImportError: from urllib.request import _parse_proxy from six.moves.urllib.parse import unquote import ba...
阅读全文
摘要:一、先安装scrapy 1. pip3 install wheel 2. pip3 install lxml 3. pip3 install pyopenssl 4. pip3 install -i https://mirrors.aliyun.com/pypi/simple/ pypiwin32
阅读全文
摘要:Scrapy 一、安装 二、scrapy命令 三、创建scrapy项目 列表 spider_project.spiders下的chouti.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from spider_
阅读全文


浙公网安备 33010602011771号