随笔分类 -  Python / python爬虫

在学习python爬虫时的一些记录
摘要:一、协程的概念 协程,又称微线程,纤程。英文名Coroutine。是一种用户态的轻量级线程。 子程序,或者称为函数,在所有语言中都是层级调用的,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕,所以程序调用是通过栈实现的,一个线程就是执行一个子程序,子程序调用 阅读全文
posted @ 2020-08-12 23:11 找回失去的自我 阅读(379) 评论(0) 推荐(0)
摘要:一旦Spider的爬取的深度比较深时,数据的提取基本上是贯穿每一层的,为了将数据一层一层传递下去,我们需要将上一层提取的数据传递到下一层,供下一层使用,这时我们就需要使用的scrapy.Request的meta参数,其是一个字典。在传递不变数据时,不需要担心,但是我们传递的是一个Item类型或字典, 阅读全文
posted @ 2020-06-15 23:07 找回失去的自我 阅读(894) 评论(1) 推荐(0)
摘要:一、什么叫数据加密 数据加密是指利用加密算法和秘钥将明文转变为密文的过程。 二、数据加密的方式 1、单向加密 指只能加密数据而不能解密数据,这种加密方式主要是为了保证数据的完整性,常见的加密算法有MD5、sha系列等(位于python内置的hashlib模块中)。 2、对称加密 指数据加密和解密使用 阅读全文
posted @ 2020-01-31 21:00 找回失去的自我 阅读(4829) 评论(0) 推荐(0)
摘要:一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错 阅读全文
posted @ 2020-01-26 20:03 找回失去的自我 阅读(1294) 评论(0) 推荐(0)
摘要:1、常用的打码平台:超级鹰、打码兔等 2、打码平台在识别图形验证码和点触验证码上比较好用 (1)12306点触验证码 1 from selenium import webdriver 2 from selenium.webdriver.support import expected_conditio 阅读全文
posted @ 2020-01-18 16:19 找回失去的自我 阅读(812) 评论(0) 推荐(0)
摘要:一、什么是验证码? 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写。 是一种用来区分用户是计算机还是人的公共全自动程序。 二、 阅读全文
posted @ 2020-01-18 16:13 找回失去的自我 阅读(713) 评论(0) 推荐(0)
摘要:一、Appium工作原理(详情见:https://www.cnblogs.com/sophia194910/p/7515165.html) Appium的功能其实很简单:监听一个端口,然后接收由client发送来的command,翻译这些command,把这些command转成移动设备可以理解的形式 阅读全文
posted @ 2020-01-18 15:37 找回失去的自我 阅读(7939) 评论(0) 推荐(1)
摘要:m = md5("12345678".encode()) print(m.hexdigest()) # 25d55ad283aa400af464c76d713c07ad m = md5("1234".encode()) print(m.hexdigest()) # 81dc9bdb52d04dc20 阅读全文
posted @ 2020-01-04 11:52 找回失去的自我 阅读(405) 评论(0) 推荐(0)
摘要:1、git教程 见廖雪峰git教程网站:https://www.liaoxuefeng.com/wiki/896043488029600/897013573512192 2、pycharm+github组合 (1)File >Settings >Version Control >Git 注意:想要把 阅读全文
posted @ 2019-12-27 21:12 找回失去的自我
摘要:class ProxyDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not defined, # scrapy acts as if the downloader middlewa 阅读全文
posted @ 2019-12-19 21:43 找回失去的自我 阅读(596) 评论(0) 推荐(0)
摘要:1、什么是scrapyd Scrapyd是一个服务,用来运行scrapy爬虫的。 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫。 官方文档:http://scrapyd.readthedocs.org/ 2、安装scrapyd和scrapyd-client pip i 阅读全文
posted @ 2019-12-19 20:56 找回失去的自我 阅读(1058) 评论(0) 推荐(0)
摘要:1、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目 官方文档:https://scrapy-redis.readthedocs.io/en/stable/ 只用修改scrapy项目的两个文件就可以了 一个是爬虫组件文件# -*- coding: utf-8 -*- import sc 阅读全文
posted @ 2019-12-12 16:04 找回失去的自我 阅读(957) 评论(0) 推荐(0)
摘要:1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE logging.WARINING logging.INFO logging.DEBUG 2、如何在pyth 阅读全文
posted @ 2019-12-12 11:57 找回失去的自我 阅读(1501) 评论(0) 推荐(0)
摘要:MongoDB安装配置: 在安装配置MongoDB的过程中遇到了很多问题,现在重新梳理一遍安装流程、遇到的问题及其解决方法 系统版本:Windows 10 MongoDB版本:4.2.1 1.下载地址:https://www.mongodb.com/download-center/community 阅读全文
posted @ 2019-12-03 15:34 找回失去的自我 阅读(712) 评论(0) 推荐(0)
摘要:常用的提取网页数据的工具有三种xpath、css选择器、正则表达式 1.xpath 1.1在python中使用xpath必须要下载lxml模块: lxml官方文档 :https://lxml.de/index.html pip install lxml 然后导入: from lxml import 阅读全文
posted @ 2019-12-01 20:35 找回失去的自我 阅读(1374) 评论(0) 推荐(0)
摘要:1、代码如下: import smtplib from email.message from EmailMessage # smtplib模块负责发送邮件服务 # email.message模块负责构建邮件,然后交给smtplib发送 # 定义SMTP服务器地址 smtp_server = 'smt 阅读全文
posted @ 2019-12-01 12:04 找回失去的自我 阅读(557) 评论(0) 推荐(0)
摘要:1、通过python socket库来构造请求报文,向服务器发送图片请求时 (1)图片在浏览器请求头中的remote address信息跟通过python socket输出远程连接地址和端口号不一致 Remote Address:183.61.138.62:443 raddr=('183.61.13 阅读全文
posted @ 2019-11-28 22:07 找回失去的自我 阅读(393) 评论(0) 推荐(0)
摘要:1.json模块常用的四个函数 1 import json 2 json.load() # 将一个存储在文件中的json对象(str)转化为相对应的python对象 3 json.loads() # 将一个json对象(str)转化为相对应的python对象 4 json.dump() # 将pyt 阅读全文
posted @ 2018-07-27 20:32 找回失去的自我 阅读(159447) 评论(3) 推荐(6)