09 2021 档案

摘要:# 基础命令 1、adb devices 查看手机设备 2、adb install packsge(包路径)安装包 3、adb install -r packages(保留数据及缓存文件安装新包) 4、adb uninstall package (卸载包) 5、adb kill-server 关闭a 阅读全文
posted @ 2021-09-30 20:24 技术改变命运Andy 阅读(265) 评论(0) 推荐(0)
摘要:genymotion模拟器 报错: An error occured while deploying the file. This probably means that the app contains ARM native code and your Genymotion device cann 阅读全文
posted @ 2021-09-29 19:53 技术改变命运Andy 阅读(374) 评论(0) 推荐(0)
摘要:验证码破解的问题会是一个难点,需要学习深度学习,图像识别的内容, 否则的话,就是使用打码平台,比如百度的图像识别接口, 第一步,需要开通, 申请百度AI接口:申请地址:http://ai.baidu.com/ 然后用你的账号登入,登入以后依次单击“产品服务”,“全部产品”,“图像识别”,然后在“图像 阅读全文
posted @ 2021-09-25 20:59 技术改变命运Andy 阅读(231) 评论(0) 推荐(0)
摘要:##### js逆向-css静态字体反爬 练习题,第12题, 静态css反爬,利用字体反爬原理:1、主要利用font-family属性,例如设置为my-font2、在HTML里面不常见(不可读)的unicode3、在CSS字体(my-font)中将其映射到常见(可读)到字体,例如数字4、爬虫在抓取数 阅读全文
posted @ 2021-09-25 19:09 技术改变命运Andy 阅读(277) 评论(0) 推荐(0)
摘要:### 第14题 发现在请求参数里面加了一个uc, var list = {"page": String(num),"uc": window.a,}; 这个 window.a是加密在了jsfuck里面了, 我们破解了之后是这样的, (function anonymous() {window.s = 阅读全文
posted @ 2021-09-24 20:38 技术改变命运Andy 阅读(129) 评论(0) 推荐(0)
摘要:### 第16题 第16题,使用了表情包加密, 先破解表情包加密 window.localStorage.setItem('a' , String(Date.parse(new Date()) / 1000));a = window.localStorage.getItem('a');window. 阅读全文
posted @ 2021-09-23 18:42 技术改变命运Andy 阅读(151) 评论(0) 推荐(0)
摘要:### 第十一题,jsl,加速乐 有一个国家网站就是用的这个,https://www.cnvd.org.cn/flaw/list.htm 观察一下返回: 每一次会有两次请求, 这两次请求的,__jsl_clearance是不一样的, 第一次的请求是一段js代码 第二次的请求,才是正常的html代码, 阅读全文
posted @ 2021-09-23 18:41 技术改变命运Andy 阅读(272) 评论(1) 推荐(0)
摘要:##### 第六题,session 保持 查看接口的,HTTP response 有一个Set-Cookie:告诉浏览器下次请求时需要带上该字段中的Cookie,这个非常重要,是服务器识别用户和维持会话的重要手段。 所以回话保持,就是把上一次设置的cookie,我下一次要带上, 怎么实现, 我们可以 阅读全文
posted @ 2021-09-23 18:40 技术改变命运Andy 阅读(154) 评论(0) 推荐(0)
摘要:Python pip install报错SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] 在某次pip安装包的时候报了一个错 看到有提示ssl,即加密传输有问题,排查了一会儿之后看到有抓包软件正在运行,所以关 阅读全文
posted @ 2021-09-23 16:46 技术改变命运Andy 阅读(2075) 评论(0) 推荐(0)
摘要:# 一、安装gcc依赖 由于 redis 是用 C 语言开发,安装之前必先确认是否安装 gcc 环境(gcc -v),如果没有安装,执行以下命令进行安装 ``` [root@localhost local]# yum install -y gcc ``` # 二、下载并解压安装包 ``` [root 阅读全文
posted @ 2021-09-23 16:14 技术改变命运Andy 阅读(174) 评论(0) 推荐(0)
摘要:现在的问题是如何操作把爬虫部署到这个vps云主机上面, 第一步,购买云主机,http://www.5jwl.com/ 无极网络, 我使用这个公司的, 第二步,在云主机配置拨号,这个每个厂商都有教程, 买了之后问问厂商, 第三步,在vps安装python和配置python虚拟环境, 这一步在cento 阅读全文
posted @ 2021-09-23 14:47 技术改变命运Andy 阅读(443) 评论(0) 推荐(0)
摘要:### 执行 `vim ~/.vimrc`进入配置文件 常用配置: 1,设置语法高亮:syntax on 2,显示行号:set nu 后续用到了再说, #### 阅读全文
posted @ 2021-09-23 14:22 技术改变命运Andy 阅读(235) 评论(0) 推荐(0)
摘要:拨号VPS主机Centos7.1系统拨号教程说明 第一步,请先运行: /bin/systemctl stop NetworkManager.service 输入pppoe-setup出现以下提示 DNS 必须填入 否则不能上网 设置完成后直接输入pppoe-start 可直接PING www.bai 阅读全文
posted @ 2021-09-23 13:31 技术改变命运Andy 阅读(447) 评论(0) 推荐(0)
摘要:#### centos7中安装python3 还是先安装依赖吧 yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel 阅读全文
posted @ 2021-09-22 21:16 技术改变命运Andy 阅读(790) 评论(0) 推荐(0)
摘要:一、简介 系统管理员经常需要SSH 或者telent 远程登录到Linux 服务器,经常运行一些需要很长时间才能完成的任务,比如系统备份、ftp 传输等等。 通常情况下我们都是为每一个这样的任务开一个远程终端窗口,因为它们执行的时间太长了。必须等待它们执行完毕,在此期间不能关掉窗口或者断开连接,否则 阅读全文
posted @ 2021-09-22 17:02 技术改变命运Andy 阅读(1230) 评论(0) 推荐(0)
摘要:#### 现状, 就是爬取数据的时候,单ip是不可能快速获得数据了, 现在常用的ip反爬,就是按照你访问的频率,如果识别到就封你的ip,更多的是封一段时间,比如一小时,比如几天,也有永久封禁, 但是现在大公司,屏蔽ip的成本变得很大,因为有的一个ip,不是一个人在用,而是一个公司,一个小区在用一个i 阅读全文
posted @ 2021-09-22 17:02 技术改变命运Andy 阅读(681) 评论(0) 推荐(0)
摘要:第一种方法: 输入ipconfig 第二种方法 查看网络设置, 阅读全文
posted @ 2021-09-22 13:49 技术改变命运Andy 阅读(1843) 评论(0) 推荐(0)
摘要:# time模块 time模块是一个内置模块,非常的重要,非常的常用, ``` time模块的方法列表: altzone asctime ctime daylight get_clock_info gmtime localtime,返回的是结构化时间,struct_time,有一个参数,秒时间戳,如 阅读全文
posted @ 2021-09-22 10:46 技术改变命运Andy 阅读(107) 评论(0) 推荐(0)
摘要:采集免费ip,制作自己的代理ip池 第一步,选择一个免费代理ip的网站,把他们网站的所有ip都爬取下来, http://www.66ip.cn/index.html https://seofangfa.com/proxy/ https://ip.jiangxianli.com/ http://www 阅读全文
posted @ 2021-09-22 07:39 技术改变命运Andy 阅读(1742) 评论(0) 推荐(0)
摘要:#### 首先是如何能避免封ip? 然后是封了ip怎么办? ### 如何避免封ip, 1,ua方面,尽量模拟浏览器的访问,比如useragent,尽量使用不同的ua,可以增加随机选择ua的功能,频繁切换UserAgent(模拟浏览器访问) 2,频率访问,降低采集频率,时间设置长一些,访问时间采用随机 阅读全文
posted @ 2021-09-22 07:00 技术改变命运Andy 阅读(314) 评论(0) 推荐(0)
摘要:# 接口文档的管理问题 有一个现实的问题,就是接口文档的管理问题, Flask 是一个以自由度高、灵活性强著称的 Python Web 框架。但高灵活性也意味着无尽的代码维护成本、高自由度意味着代码质量更依赖程序员自身而没有一致的标准和规范。因此团队内开发时 Flask 项目更需要建立代码和文档规范 阅读全文
posted @ 2021-09-20 08:22 技术改变命运Andy 阅读(177) 评论(0) 推荐(0)
摘要:# 背景 我们会发现有时候它需要与父组件进行交互。例如,将博客文章的文字能够放大,而页面的其余部分仍使用默认字号。 # 组件事件 这个事件不是用户点击行为的处理,那是用户事件, 这个组件事件是为了给组件之间传递数据的,老版本的vue也叫做自定义事件,现在叫组件事件 这两个区别你要搞清楚, # 一,事 阅读全文
posted @ 2021-09-14 05:21 技术改变命运Andy 阅读(62) 评论(0) 推荐(0)
摘要:# 存储过程 那么什么是存储过程呢?怎么创建、查看和删除存储过程呢?存储过程有什么优点? 存储过程:类似于函数(方法),简单的说存储过程是为了完成某个数据库中的特定功能而编写的语句集合, 该语句集包括SQL语句(对数据的增删改查)、条件语句和循环语句等。 ``` 1. 查看现有的存储过程 show 阅读全文
posted @ 2021-09-13 23:12 技术改变命运Andy 阅读(468) 评论(0) 推荐(0)
摘要:#### 首先是要安装nodejs, ### Pycharm环境配置这里需要说明一下!!! PyCharm 必须要为 专业版 ,社区版的我试过了几个版本,都不可以进行以下操作!!! 1,在Settings - Plugins里边,搜索NodeJS,然后点击下载; #### 2,在Settings - 阅读全文
posted @ 2021-09-13 22:52 技术改变命运Andy 阅读(1292) 评论(0) 推荐(0)
摘要:# 前言 这集来聊什么是 Nodejs , 看看 Node.js 是为了解决什么样的痛点而生的, 为啥说它是一个 JS 的运行环境, 以及 npm 是什么, 为何能引发了 Web 开发的革命。 # 什么是 Nodejs ## Node.js 的诞生 Node.js 是2009的时候由大神 Ryan 阅读全文
posted @ 2021-09-13 22:43 技术改变命运Andy 阅读(161) 评论(0) 推荐(0)
摘要:# 网络超时 插件管理 -->高级 >升级站点 输入 http://mirror.esuni.jp/jenkins/updates/update-center.json,提交 》 立即获取, ![](https://img2023.cnblogs.com/blog/1854922/202306/18 阅读全文
posted @ 2021-09-13 22:32 技术改变命运Andy 阅读(1039) 评论(0) 推荐(0)
摘要:# npm介绍 npm 是世界上最大软件包仓库 最后来聊 npm 。Node.js 引发了前后端开发的爆发,尤其是前端。 JS 开发者众多,所以贡献开源代码的人就非常多,所有这些凝结成了 npm 这个世界上最大的软件包仓库。 npm 是 Node Package Manager 的缩写,意思是 No 阅读全文
posted @ 2021-09-13 22:18 技术改变命运Andy 阅读(215) 评论(0) 推荐(0)
摘要:scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明: 1)meta是一个字典,主要用于解析函数之间传递值; 2)Request对象接受一个meta参数,即一个 阅读全文
posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(231) 评论(0) 推荐(0)
摘要:设置delay有起码两个好处, 一个是对被爬对象表示礼貌, 另一个是爬的太快,很多服务器会封ip,或限制访问。 效果:每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系 大致给出粗略代码: jianshuspider.py: 阅读全文
posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(1013) 评论(0) 推荐(0)
摘要:#### 做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没 阅读全文
posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(2020) 评论(0) 推荐(0)
摘要:#### Python很强大,熟练的程序员可以在5分钟内写出一个有价值的爬虫,比如: - 抓取股票信息 - 抓取笑话 - 抓取商品信息 但大部分被抓的网站不是任你抓取的木鸡,有抓就有反抗! 这是一场网站和程序员之间的一种博弈!都是程序员,何必呢?程序员何必为难程序员! 凡是博弈,就一定不易!因为道高 阅读全文
posted @ 2021-09-12 04:20 技术改变命运Andy 阅读(341) 评论(0) 推荐(0)
摘要:####you-get是一个开源的python第三方模块, 安装 pip install you-get You-Get是GitHub上一个评分很高的python项目,作为一款精巧的命令行应用程序,可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放,不需要安装特定的网络浏览器,也免去 阅读全文
posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(666) 评论(0) 推荐(0)
摘要:#### ### 这个爬虫中间件,的process_start_request方法,可以监控到有多少个爬虫启动,启动了多少个url, 因为所有的爬虫,都会通过这个中间件的, 我们可以在这个上面做文章,来监控这个爬虫的情况, ### 这两个是控制输入和输出的, 输出的信息,可以把每一个页面,的每一个记 阅读全文
posted @ 2021-09-12 01:09 技术改变命运Andy 阅读(59) 评论(0) 推荐(0)
摘要:### 官方文档:https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request # urllib模块介绍: 一共是四块, urllib.request - 打开和读取 URL。 urllib.err 阅读全文
posted @ 2021-09-11 22:40 技术改变命运Andy 阅读(51) 评论(0) 推荐(0)
摘要:### 这是使用的urllib, #### 使用requests下载图片 import requests # 这是一个图片的url url = 'http://yun.itheima.com/Upload/Images/20170614/594106ee6ace5.jpg' response = r 阅读全文
posted @ 2021-09-11 22:39 技术改变命运Andy 阅读(148) 评论(0) 推荐(0)
摘要:### # 序列化是什么? 现在的序列化都是转向一个字符串数据类型, 我们说的序列就是字符串, # 为什么要千方百计的转换成为字符串呢? 是为了存储和传递 如果一个字典{"k":"v"}为什么要转成字符串 1,我往文件或者数据库里面写内容的时候是不能写入字典的,可以写入字符串, 2,还有在网络上传输 阅读全文
posted @ 2021-09-11 05:05 技术改变命运Andy 阅读(119) 评论(0) 推荐(0)
摘要:#### 进入虚拟环境,里面安装了scrapy, 进入命令行,输入命令,scrapy shell 'https://scrapy.org' --nolog,执行后,会自动将指定 url 的网页下载下来, 注意一点:不要在你的爬虫项目文件夹下面执行这个命令,会报错的, 会弹出交互页面, 然后你就可以使 阅读全文
posted @ 2021-09-11 03:12 技术改变命运Andy 阅读(121) 评论(0) 推荐(0)
摘要:#### 在爬虫里面,使用yield,就是协程异步的体现, 所以我干保证,面试的时候一定会涉及到线程,涉及到协程,的使用,这个必须要深刻的理解, #### 必须要搞定这个线程协程,然后还有就是这个框架,然后你才能自定义,才能扩展这个框架, ##### 阅读全文
posted @ 2021-09-11 02:40 技术改变命运Andy 阅读(64) 评论(0) 推荐(0)
摘要:1,要想达到日爬取千万,这种大规模的爬取,使用分布式是必须的, 关于可以使用RabbitMQ消息队列代替Redis。 关于celery的使用, 2,关于资源问题,数据去重问题,使用布隆过滤去重,几乎也是达成了共识, 3,另外就是代码健壮性要强!高可用、高扩展、高性能你可以都不知道,也没多大关系。但是 阅读全文
posted @ 2021-09-09 02:17 技术改变命运Andy 阅读(236) 评论(0) 推荐(0)
摘要:爬虫 DATA/URL 去重 舆情业务必须紧盯网站是否有新的内容发布,要求是越快越好,但由于各项软硬件限制,通常会要求在 30 分钟内或者 15 分钟内监听到新内容。要实现对目标网站内容变化的监听,那么我们可以选择的比较好的方式就是轮询。不停地访问网页,并且判断是否有“新内容”出现,如果有的话就执行 阅读全文
posted @ 2021-09-09 01:42 技术改变命运Andy 阅读(177) 评论(0) 推荐(0)
摘要:###### 可以通过以下几种方式: 1.开启多个命令行,分别执行scrapy cralw xxxx 2.编写一个脚本,写入以下代码,执行工程下的所有爬虫: from scrapy.utils.project import get_project_settings from scrapy.crawl 阅读全文
posted @ 2021-09-09 00:01 技术改变命运Andy 阅读(634) 评论(0) 推荐(0)
摘要:#### 统计几千个csv文件的行数,并统计 使用单线程完成 使用进程完成 使用线程完成 使用协程完成 #### 检索几千个文件,查询里面包含XXX字段的行, 使用单线程完成 使用进程完成 使用线程完成 使用协程完成 ### 抓取邮箱,并且存储起来, 递归的使用, 定时器的使用,定时把队列清空,写入 阅读全文
posted @ 2021-09-06 18:26 技术改变命运Andy 阅读(58) 评论(0) 推荐(0)
摘要:### 使用内置函数help,查看帮助文档的时候,如何自由的操作帮助文档 #### 第一个问题,帮助文档怎么查看, 进入ipython解释器,使用help(命令)就可以了 查看某一个命令,help(str) 查看某一个函数的方法,help(str.split) 第二个问题,帮助文档很长怎么操作 按q 阅读全文
posted @ 2021-09-04 18:55 技术改变命运Andy 阅读(355) 评论(0) 推荐(0)
摘要:#### 新建一个python虚拟环境,然后安装selenium 新建一个python项目, #### from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.baidu.com") ### 阅读全文
posted @ 2021-09-02 15:57 技术改变命运Andy 阅读(479) 评论(0) 推荐(0)