摘要: 安装 """ pip install pyhs2 等待这个模块安装完成之后不要关闭命令行,接着在新的一行去执行命令。此时这个命令的作用是开启hive服务,否则python程序无法成功连接,命令如下: hive --service hiveserver 这个是启动hive """ python3.7 阅读全文
posted @ 2022-11-16 18:26 小符玩代码 阅读(198) 评论(0) 推荐(0)
摘要: redis基础 1.初识redis Redis是一种键值型的NoSql数据库,这里有两个关键字: 键值型 NoSql 其中键值型,是指Redis中存储的数据都是以key、value对的形式存储,而value的形式多种多样,可以是字符串、数值、甚至json: 而NoSql则是相对于传统关系型数据库而言 阅读全文
posted @ 2022-11-16 18:26 小符玩代码 阅读(44) 评论(0) 推荐(0)
摘要: redis基础 1.初识redis Redis是一种键值型的NoSql数据库,这里有两个关键字: 键值型 NoSql 其中键值型,是指Redis中存储的数据都是以key、value对的形式存储,而value的形式多种多样,可以是字符串、数值、甚至json: 而NoSql则是相对于传统关系型数据库而言 阅读全文
posted @ 2022-11-16 18:23 小符玩代码 阅读(33) 评论(0) 推荐(0)
摘要: 安装 """ pip install pyhs2 等待这个模块安装完成之后不要关闭命令行,接着在新的一行去执行命令。此时这个命令的作用是开启hive服务,否则python程序无法成功连接,命令如下: hive --service hiveserver 这个是启动hive """ python3.7 阅读全文
posted @ 2022-11-16 18:23 小符玩代码 阅读(1307) 评论(0) 推荐(0)
摘要: 前提条件 已安装Python-3.6。 已经有搭建好的完全分布式集群,并已经成功启动Hadoop,Zookeeper和HBase。笔者当前搭建好的集群是Hadoop-3.0.3,Zookeeper-3.4.13和HBase-2.1.0。 | Hostname | IP | | : : | : : | 阅读全文
posted @ 2022-11-16 18:23 小符玩代码 阅读(392) 评论(0) 推荐(0)
摘要: 安装 安装hadoop 关于hadoop的安装配置会在另一篇文章中介绍,这里只介绍python的hdfs库的安装. 安装hdfs库 所有python的三方模块均采用pip来安装. pip install hdfs hdfs库的使用 下面将介绍hdfs库的方法列表,并会与hadoop自带的命令行工具进 阅读全文
posted @ 2022-11-16 18:23 小符玩代码 阅读(3938) 评论(0) 推荐(0)
摘要: Redis安装说明 大多数企业都是基于Linux服务器来部署项目,而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis. 此处选择的Linux版本为CentOS 7. Redis的官方网站地址:https://redis.io/ 1.单机安装Re 阅读全文
posted @ 2022-11-16 18:23 小符玩代码 阅读(48) 评论(0) 推荐(0)
摘要: 本文由 简悦 SimpRead 转码, 原文地址 mp.weixin.qq.com 仅供学习研究 。请勿用于非法用途,本人将不承担任何法律责任。 前言 app 某某咖啡 v4.4.0 mitmproxy 抓包 java 分析 定位到 CryptoHelper 类的名为 md5_crypt 的 nat 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(377) 评论(0) 推荐(0)
摘要: II. 油猴脚本 *维基百科里的解释:油猴脚本其实是指(用户脚本管理器),而我们大众口中所说的油猴脚本,更多是指用户脚本; Greasemonkey,简称GM,中文俗称为“油猴”,是Firefox的一个附加组件(用户脚本管理器)。它让用户安装一些脚本使大部分HTML为主的网页于用户端直接改变得更方便 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(631) 评论(0) 推荐(0)
摘要: 如果你对逆向有所涉猎的话,可能听说过 Hook,利用 Hook 技术我们可以在某一逻辑的前后加入自定义的逻辑处理代码,几乎可以实现任意逻辑的修改。 在前面的 JavaScript 逆向实战课时我们也初步体会了 Hook 的功效,如果你对 Hook 的概念还不太了解,可以搜索一下“Hook 技术”相关 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(337) 评论(0) 推荐(0)
摘要: 我们知道 Web 站点有多种渲染和反爬方式,渲染分为服务端渲染和客户端渲染;反爬也是多种多样,如请求头验证、WebDriver 限制、验证码、字体反爬、封禁 IP、账号验证等等,综合来看 Web 端的反爬虫方案也是多种多样。 但 App 的情况略有不同,一般来说,App 的数据通信大都需要依赖独立的 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(421) 评论(0) 推荐(0)
摘要: 我们在爬取网站的时候,经常会遇到各种各样类似加密的情形,比如: 某个网站的 URL 带有一些看不懂的长串加密参数,想要抓取就必须要懂得这些参数是怎么构造的,否则我们连完整的 URL 都构造不出来,更不用说爬取了。 分析某个网站的 Ajax 接口的时候,可以看到接口的一些参数也是加密的,或者 Requ 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(337) 评论(0) 推荐(0)
摘要: 使用 Pyppeteer 针对之前的 Selenium 案例做一次改写,来体会一下二者的不同之处,同时也加强一下对 Pyppeteer 的理解和掌握情况。 还是 Selenium 的那个案例,地址为:https://dynamic2.scrape.cuiqingcai.com/ 爬取目标和那一节也是 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(284) 评论(0) 推荐(0)
摘要: 实例引入 比如在这里我们看这么一个示例网站:https://static4.scrape.cuiqingcai.com/, 这个网站在内部实现返回响应的逻辑的时候特意加了 5 秒的延迟,也就是说如果我们用 requests 来爬取其中某个页面的话,至少需要 5 秒才能得到响应。 另外这个网站的逻辑结 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(79) 评论(0) 推荐(0)
摘要: 数据的编码与加密 ASCII编码 ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/I 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(149) 评论(0) 推荐(0)
摘要: 常见加密算法: 对称加密(加密解密密钥相同):DES、3DES、AES、RC4、Rabbit 非对称加密(区分公钥和私钥):RSA、DSA、ECC 消息摘要算法/签名算法:MD5、SHA、HMAC、PBKDF2 常见编码算法:Base64 JavaScript 加密解密模块 Crypto-JS Cr 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(176) 评论(0) 推荐(0)
摘要: 来源:CSDN 参考即可 上个课时我们讲解了 Ajax 的分析方法,利用 Ajax 接口我们可以非常方便地完成数据的爬取。只要我们能找到 Ajax 接口的规律,就可以通过某些参数构造出对应的的请求,数据自然就能被轻松爬取到。 但是,在很多情况下,Ajax 请求的接口通常会包含加密的参数,如 toke 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(81) 评论(0) 推荐(0)
摘要: 页面解析之数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 关于结构化的数据 JSON、XML 关于非结构化的数据 关于HTML文本(包含JavaScript代码) HTML文本(包含JavaScript代码) 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(79) 评论(0) 推荐(0)
摘要: HTTP协议介绍 设计HTTP(HyperText Transfer Protocol)是为了提供一种发布和接收HTML(HyperText Markup Language)页面的方法。 Http组成 由两部分组成:请求与响应 客户端请求消息 客户端发送一个HTTP请求到服务器的请求消息包括以下格式 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(235) 评论(0) 推荐(0)
摘要: 爬虫基本原理 爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.sina.com.cn/ 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址。 向IP对应的服务器发送请求。 阅读全文
posted @ 2022-11-16 18:22 小符玩代码 阅读(470) 评论(0) 推荐(0)
摘要: Redis安装说明 大多数企业都是基于Linux服务器来部署项目,而且Redis官方也没有提供Windows版本的安装包。因此课程中我们会基于Linux系统来安装Redis. 此处选择的Linux版本为CentOS 7. Redis的官方网站地址:https://redis.io/ 1.单机安装Re 阅读全文
posted @ 2022-11-16 18:17 小符玩代码 阅读(31) 评论(0) 推荐(0)
摘要: Java面对对象 java mvc 字符串的比较 set,list,map 线程,线程池,锁 字符串处理 面向对象 常用函数,如随机正态分数 网络编程 cookies,session b/s,c/s 爬虫,header请求头, Python基础必问-> 数据结构、字符串处理、Python面向对象、常 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(20) 评论(0) 推荐(0)
摘要: 爬虫面试题汇总 一.项目问题: 1.你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 1.你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的 通过headers反爬虫:解决策略,伪造headers 基于用户行为反爬虫:动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(242) 评论(0) 推荐(0)
摘要: 什么是魔术方法? 在Python中,所有以双下划线__包起来的方法,统称为Magic Method(魔术方法),它是一种的特殊方法,普通方法需要调用,而魔术方法不需要调用就可以自动执行。 魔术方法在类或对象的某些事件出发后会自动执行,让类具有神奇的“魔力”。如果希望根据自己的程序定制自己特殊功能的类 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(68) 评论(0) 推荐(0)
摘要: python基础 1 Python类中的方法类型 在Python类中有四种方法类型,分别是实例方法、静态方法、类方法和普通方法。 实例方法(即对象方法):需要实例化对象之后才能调用,接受的第一个参数self就是对象本身,必须使用实例化对象才可以访问,不能通过类直接访问. 静态方法:可以通过类名直接调 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(172) 评论(0) 推荐(0)
摘要: 1、一行代码实现1--100之和 利用sum()函数求和 2、如何在一个函数内部修改全局变量 利用global在函数声明 修改全局变量 3、列出5个python标准库 os:提供了不少与操作系统相关联的函数 sys: 通常用于命令行参数 re: 正则匹配 math: 数学运算 datetime:处理 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(192) 评论(0) 推荐(0)
摘要: Flask 和Django的区别与比较 那么Django框架他到底重在哪呢? 对比Flask框架,Django原生提供了众多的功能组件,让开发更简便快速。 提供项目工程管理的自动化脚本工具 数据库ORM支持(对象关系映射,英语:Object Relational Mapping) 模板 表单 Adm 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(62) 评论(0) 推荐(0)
摘要: 1、什么是wsgi? WSGI是Python在处理HTTP请求时,规定的一种处理方式。如一个HTTP Request过来了,那么就有一个相应的处理函数来进行处理和返回结果。WSGI就是规定这个处理函数的参数长啥样的,它的返回结果是长啥样的?至于该处理函数的名子和处理逻辑是啥样的,那无所谓。简单而言, 阅读全文
posted @ 2022-11-16 17:39 小符玩代码 阅读(492) 评论(0) 推荐(0)