08 2021 档案

摘要:0.创建删除数据库 create Database if not Exists Hivetest; use Hivetest; 1.数据类型 数字类 日期时间 字符串 Misc类 复合类 整型 Tinyint,Smallint,Int,Bigint,长度分别1,2,4,8字节 浮点型 Float,D 阅读全文
posted @ 2021-08-25 11:28 Rosaany 阅读(683) 评论(0) 推荐(0)
摘要:语句执行顺序 HQL语句执行顺序 from + join --> where --> select --> group by --> having --> order by --> limit MySQL语句执行顺序 from + join --> where --> group by --> ha 阅读全文
posted @ 2021-08-25 11:28 Rosaany 阅读(1128) 评论(0) 推荐(0)
摘要:1.综合分析 引用百度百科一句话:综合分析法是指运用各种统计综合指标来反映和研究社会经济现象总体的一般特征和数量关系的研究方法。 在本文展示的例子,主要浅谈某水果店的中各类水果和多个指标存在的关系,使用综合分析方法找出水果店中的各类水果的排名。 2.主要思路 对多指标通过矩阵进行权重划分 确认各指标 阅读全文
posted @ 2021-08-13 15:17 Rosaany 阅读(838) 评论(0) 推荐(0)
摘要:1. 接口模块说明 接口模块篇可以专注于把爬取得来的代理以json格式返回,以供我们的爬虫程序使用,从而避开存在反爬机制的网站。 想到接口开发,想要轻量和简单,选择Python编写的Flask Web应用框架再适合不过了。 2. 代码实现 代码环境:Python 3.9.1 第三方依赖包:flask 阅读全文
posted @ 2021-08-03 10:54 Rosaany 阅读(118) 评论(0) 推荐(0)
摘要:1.检测模块说明 检测模块顾名思义就是验证某个东西然后看结果怎么样,这里文中说的是检测代理是否可用。 当我们从网上爬取代理下来时,比如:proxy = '185.78.228.24:8000',如何检测它是否有效呢? 测试一个代理是否可用的标准,在存储模块篇就提到过了【跳转】,这里再简单过一遍。如果 阅读全文
posted @ 2021-08-02 18:11 Rosaany 阅读(161) 评论(0) 推荐(0)
摘要:1.存储模块说明 当我们从网上爬取下来代理时,负责存储工作就主要由存储模块来完成。 存储代理的方式可能有很多,既然保证代理不重复,且要有一个标识来说明代理的可用情况,还要实时处理每个代理。所以这里选用Reids的有序集合(sorted set),Redis有序集合和集合一样不允许存在重复,不同的是每 阅读全文
posted @ 2021-08-02 17:59 Rosaany 阅读(91) 评论(0) 推荐(0)
摘要:1. 爬取模块说明 爬取模块篇,主要从网上找到一些免费代理网站,网站内仅开放的一点免费代理抓取下来,爬取下来能用的代理可谓稀少,假设从一个代理网站首页爬取20个免费代理,经过测试后剩下1、2个可用,因为免费的代理一般具有时效性,肯定不如花钱买的代理来得相对稳定。 既然爬取单个代理网站最后能用的只手可 阅读全文
posted @ 2021-08-02 17:43 Rosaany 阅读(700) 评论(0) 推荐(0)
摘要:1. 变量 变量a和b引用同一个列表对象 >>> a = [1, 2, 3] >>> b = a >>> id(a), id(b) (2085930269824, 2085930269824 >>> b.append(4) >>> a [1, 2, 3, 4] 变量a和b在这里共同标注着一个对象,变 阅读全文
posted @ 2021-08-01 18:55 Rosaany 阅读(64) 评论(0) 推荐(0)
摘要:本篇文章主要记录学习Python序列类型。 我们了解到的Python中的数据结构可能有:字符串、列表、字节序列、数据、XML元素等。 它们的共同点都有一套厉害的操作:迭代、切片、排序、还有拼接。 本篇文章目录结构如下: 1. 了解Python中的内置序列类型 容器序列 容器序列存放任意类型的对象的引 阅读全文
posted @ 2021-08-01 10:26 Rosaany 阅读(80) 评论(0) 推荐(0)