05 2022 档案
摘要:csv文件写入 写入文件是一个非常简单的事情. 直接在pipeline中开启文件即可. 但这里要说明的是. 如果我们只在process_item中进行处理文件是不够优雅的. 总不能有一条数据就open一次吧 class CaipiaoFilePipeline: def process_item(se
阅读全文
posted @ 2022-05-31 17:56
屠魔的少年
摘要:scrapy安装 在windows上安装scrapy是一个很痛苦的事情. 可能会出现各种各样的异常BUG. scrapy 2.5.1 -> scrapy-redis(0.7.2) 注意, 由于scrapy的升级. 导致scrapy-redis无法正常使用.所以这里我们选择2.5.1这个版本作为学习.
阅读全文
posted @ 2022-05-30 21:37
屠魔的少年
摘要:scrapy简介 Scrapy的官方文档(英文): https://docs.scrapy.org/en/latest/ Scrapy工作流程 # 伪代码, 只为说明 def get_page_srouce(): resp = requests.get(xxxxx) return resp.text
阅读全文
posted @ 2022-05-30 21:33
屠魔的少年
摘要:1. 能采集代理ip->用爬虫抓取 https://www.kuaidaili.com/free/ https://ip.jiangxianli.com/?page=1 把免费的ip存起来? redis最合适,查询效率最高的
阅读全文
posted @ 2022-05-27 00:27
屠魔的少年
摘要:python处理redis使用专用的redis模块. 同样的, 它也是一个第三方库. pip install redis 普通连接 from redis import Redis red = Redis( host = "192.168.4.63", port = 6379, db = 0, pas
阅读全文
posted @ 2022-05-27 00:24
屠魔的少年
摘要:python处理MongoDB首选就是pymongo. 首先, 安装一下这个模块 pip install pymongo pymongo 官方文档: https://pymongo.readthedocs.io/en/stable/ 建立连接 import pymongo def get_db(da
阅读全文
posted @ 2022-05-27 00:23
屠魔的少年
摘要:python连接mysql可以用pymysql模块 pip install pymysql pymysql基本使用: import pymysql # 链接数据库 conn = pymysql.connect( host='localhost', port=3306, user='root', pa
阅读全文
posted @ 2022-05-27 00:21
屠魔的少年
摘要:selenium小进阶+案例 关于验证码 验证码处理: 1. 直接把浏览器里面的cookie拿出来直接用. 2. 手动编写验证码识别的功能(深度学习)3. 第三方打码平台(收费), 超级鹰, 图鉴 图鉴-好东西http://www.ttshitu.com/ 这个东西. 既便宜. 有好用. 比超级鹰爽
阅读全文
posted @ 2022-05-24 10:00
屠魔的少年
摘要:selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取 selenium概述 我们在抓取一些普通网页的时候requests基本上是可以满足的. 但是, 如果遇到一些特殊的网站
阅读全文
posted @ 2022-05-24 09:58
屠魔的少年
摘要:一、协程 概念 协程 又称微线程(纤程),是一种用户态的轻量级线程 子程序 在所有的语言中都是层级调用的,比如A中调用B,B在执行过程中调用C,C执行完返回,B执行完返回,最后是A执行完毕。这是通过栈实现的,一个函数就是一个执行的子程序,子程序的调用总是有一个入口、一次返回,调用的顺序是明确的 理解
阅读全文
posted @ 2022-05-23 11:12
屠魔的少年
摘要:一、线程 1、概念 线程 在一个进程的内部,要同时干多件事,就需要同时运行多个“子任务”,我们把进程内的这些“子任务”叫做线程 是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同
阅读全文
posted @ 2022-05-15 10:39
屠魔的少年
摘要:一、多任务原理 概念 现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统 什么叫多任务? 就是操作系统可以同时运行多个任务 单核CPU实现多任务原理 操作系统轮流让各个任务交替执行,QQ执行2us(微秒),切换到微信,在执行2us,再切换到陌陌,执
阅读全文
posted @ 2022-05-14 18:20
屠魔的少年
摘要:爬虫中使用cookie 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求 爬虫中使用cookie的利弊 带上cookie的好处 能够访问登录后的页面 能够实现部分反反爬 带上cookie的坏处 一套cookie往往对应的是一个用
阅读全文
posted @ 2022-05-14 00:51
屠魔的少年
摘要:图鉴 官方地址: http://www.ttshitu.com/ 通用图片识别接口:(详见: http://www.ttshitu.com/docs/python.html#pageTitle ) typeid 一、图片文字类型(默认 3 数英混合): 1 : 纯数字 1001:纯数字2 2 : 纯
阅读全文
posted @ 2022-05-14 00:01
屠魔的少年
摘要:为什么要使用代理 让服务器以为不是同一个客户端在请求 防止我们的真实地址被泄露,防止被追究 理解使用代理的过程 理解正向代理和反向代理的区别 通过上图可以看出: 正向代理:对于浏览器知道服务器的真实地址,例如VPN 反向代理:浏览器不知道服务器的真实地址,例如nginx 详细讲解: 正向代理是客户端
阅读全文
posted @ 2022-05-13 23:54
屠魔的少年
摘要:目标, 搞定汽车之家-A8测评 https://k.autohome.com.cn/146/ import requests from pyquery import PyQuery as pq f = open("奥迪A8.csv", mode="w", encoding='utf-8') def
阅读全文
posted @ 2022-05-13 15:26
屠魔的少年
摘要:pyquery是一个相对新颖的数据解析方式,有别于xpath和bs4。 它是使用css选择器作为语法规则的一种解析方式,其用法几乎和前端的jQuery库一致。 安装 pip install pyquery 基本用法 from pyquery import PyQuery as pq html = '
阅读全文
posted @ 2022-05-13 11:56
屠魔的少年
摘要:import requests from lxml import etree url = "http://www.boxofficecn.com/boxoffice2022" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64
阅读全文
posted @ 2022-05-13 01:13
屠魔的少年
摘要:1、xpath安装与使用 安装 安装lxml库 pip install lxml -i pip源 XPath 练习最好的网站 猪八戒网 2、解析流程与使用 解析流程 实例化一个etree的对象,把即将被解析的页面源码加载到该对象 调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和
阅读全文
posted @ 2022-05-13 01:07
屠魔的少年
摘要:安装 pip install beautifulsoup4 如果安装的速度慢, 建议更换国内源(推荐阿里源或者清华源) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bs4 Beautiful Soup支持Python标准库中的HTM
阅读全文
posted @ 2022-05-12 00:22
屠魔的少年
摘要:常用的正则匹配工具 在线匹配工具:https://tool.oschina.net/regex/ 匹配单个字符与数字 匹配 说明 . 匹配除换行符以外的任意字符,当flags被设置为re.S时,可以匹配包含换行符以内的所有字符 [] 里面是字符集合,匹配[]里任意一个字符 [0123456789]
阅读全文
posted @ 2022-05-11 08:31
屠魔的少年
摘要:问个问题:mysql客户端执行了一个sql,马上我把客户端的网线拔了,会发生什么数据库hang死,高可用工具拿不到数据的状态信息,然后就切换把sip解绑了,主从切换了 旧主还有一个事务没传到新主上
阅读全文
posted @ 2022-05-09 18:11
屠魔的少年
摘要:1、为什么要重点学习requests模块,而不是urllib 企业中用的最多的就是requests requests的底层实现就是urllib requests在python2 和python3中通用,方法完全一样 requests简单易用 2、requests的作用与安装 作用:发送网络请求,返回
阅读全文
posted @ 2022-05-08 12:20
屠魔的少年
摘要:1、urllib介绍 除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同! urllib在python中分为urllib和urllib2,在python3中为urllib 2、urllib的基本方法介绍 2.1 urllib.Request 构造简
阅读全文
posted @ 2022-05-08 11:47
屠魔的少年
摘要:提示:谷歌浏览器,能不更新就不更新。因为更新到最新版本的谷歌浏览器。打开经过压缩后的代码格式化,行号没了。 浏览器是最能直观的看到网页情况以及网页加载内容的地方,我们可以按下F12来查看一些普通用户很少能使用到的工具。 其中, 最重要的Elements, Console, Sources, Netw
阅读全文
posted @ 2022-05-08 09:50
屠魔的少年
摘要:爬⾍合法么 爬⾍分为善意的爬⾍和恶意的爬虫 善意的爬⾍ 不破坏被爬取的⽹站的资源(正常访问, ⼀般频率不 ⾼, 不窃取⽤户隐私) 恶意的爬⾍ 影响⽹站的正常运营(抢票, 秒杀, 疯狂solo⽹站资源 造成⽹站宕机) 综上, 为了避免进xx,我们还是要安分守⼰,时常优化⾃⼰的爬⾍程序 避免⼲扰到⽹站的
阅读全文
posted @ 2022-05-08 01:09
屠魔的少年
摘要:今天在主库建了一张表,在向该表插入数据时,发现没有同步到从库,并且在从库 slave_type_conversions来控制复制中主从结构不一致的处理默认为”,即不支持主从字段类型不一致,其它3种类型为:all_lossy 支持有损转换,如int–>tinyintall_non_lossy 支持无损
阅读全文
posted @ 2022-05-05 17:22
屠魔的少年
浙公网安备 33010602011771号