随笔分类 - Python / python爬虫
在学习python爬虫时的一些记录
摘要:一、协程的概念 协程,又称微线程,纤程。英文名Coroutine。是一种用户态的轻量级线程。 子程序,或者称为函数,在所有语言中都是层级调用的,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕,所以程序调用是通过栈实现的,一个线程就是执行一个子程序,子程序调用
阅读全文
摘要:一旦Spider的爬取的深度比较深时,数据的提取基本上是贯穿每一层的,为了将数据一层一层传递下去,我们需要将上一层提取的数据传递到下一层,供下一层使用,这时我们就需要使用的scrapy.Request的meta参数,其是一个字典。在传递不变数据时,不需要担心,但是我们传递的是一个Item类型或字典,
阅读全文
摘要:一、什么叫数据加密 数据加密是指利用加密算法和秘钥将明文转变为密文的过程。 二、数据加密的方式 1、单向加密 指只能加密数据而不能解密数据,这种加密方式主要是为了保证数据的完整性,常见的加密算法有MD5、sha系列等(位于python内置的hashlib模块中)。 2、对称加密 指数据加密和解密使用
阅读全文
摘要:一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错
阅读全文
摘要:1、常用的打码平台:超级鹰、打码兔等 2、打码平台在识别图形验证码和点触验证码上比较好用 (1)12306点触验证码 1 from selenium import webdriver 2 from selenium.webdriver.support import expected_conditio
阅读全文
摘要:一、什么是验证码? 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写。 是一种用来区分用户是计算机还是人的公共全自动程序。 二、
阅读全文
摘要:一、Appium工作原理(详情见:https://www.cnblogs.com/sophia194910/p/7515165.html) Appium的功能其实很简单:监听一个端口,然后接收由client发送来的command,翻译这些command,把这些command转成移动设备可以理解的形式
阅读全文
摘要:m = md5("12345678".encode()) print(m.hexdigest()) # 25d55ad283aa400af464c76d713c07ad m = md5("1234".encode()) print(m.hexdigest()) # 81dc9bdb52d04dc20
阅读全文
摘要:1、git教程 见廖雪峰git教程网站:https://www.liaoxuefeng.com/wiki/896043488029600/897013573512192 2、pycharm+github组合 (1)File >Settings >Version Control >Git 注意:想要把
阅读全文
posted @ 2019-12-27 21:12
找回失去的自我
摘要:class ProxyDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the downloader middlewa
阅读全文
摘要:1、什么是scrapyd Scrapyd是一个服务,用来运行scrapy爬虫的。 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫。 官方文档:http://scrapyd.readthedocs.org/ 2、安装scrapyd和scrapyd-client pip i
阅读全文
摘要:1、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目 官方文档:https://scrapy-redis.readthedocs.io/en/stable/ 只用修改scrapy项目的两个文件就可以了 一个是爬虫组件文件# -*- coding: utf-8 -*- import sc
阅读全文
摘要:1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE logging.WARINING logging.INFO logging.DEBUG 2、如何在pyth
阅读全文
摘要:MongoDB安装配置: 在安装配置MongoDB的过程中遇到了很多问题,现在重新梳理一遍安装流程、遇到的问题及其解决方法 系统版本:Windows 10 MongoDB版本:4.2.1 1.下载地址:https://www.mongodb.com/download-center/community
阅读全文
摘要:常用的提取网页数据的工具有三种xpath、css选择器、正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/index.html pip install lxml 然后导入: from lxml import
阅读全文
摘要:1、代码如下: import smtplib from email.message from EmailMessage # smtplib模块负责发送邮件服务 # email.message模块负责构建邮件,然后交给smtplib发送 # 定义SMTP服务器地址 smtp_server = 'smt
阅读全文
摘要:1、通过python socket库来构造请求报文,向服务器发送图片请求时 (1)图片在浏览器请求头中的remote address信息跟通过python socket输出远程连接地址和端口号不一致 Remote Address:183.61.138.62:443 raddr=('183.61.13
阅读全文
摘要:1.json模块常用的四个函数 1 import json 2 json.load() # 将一个存储在文件中的json对象(str)转化为相对应的python对象 3 json.loads() # 将一个json对象(str)转化为相对应的python对象 4 json.dump() # 将pyt
阅读全文

浙公网安备 33010602011771号