上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页
摘要: 一.概览 二.常用函数代码实战 1.eval eval()函数用来执行一个字符串表达式,并返回表达式的结果。 结果: 2.divmod divmod()函数把除数和余数运算结果结合起来,返回一个包含商和余数的元组(a / b,a % b)。 结果: 3.sum sum()函数对可迭代对象【列表,元组 阅读全文
posted @ 2019-07-25 21:21 云山之巅 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 一.广播变量图解 二.代码 三.注意事项 1.不能将一个RDD使用广播变量广播出去,因为RDD是不存储数据的【弹性分布式数据集】。可以将RDD的结果广播出去【collect,数据不能太多】。 2.广播变量只能在Driver端定义,不能在Executor端定义。 3.在Driver端可以修改广播变量的 阅读全文
posted @ 2019-07-22 21:05 云山之巅 阅读(217) 评论(0) 推荐(0) 编辑
摘要: 一.电力系统故障概述 1.短路 短路是指电力系统正常运行情况下以外的相与相或相与地【或中性线】之间的故障连接。 2.对称短路与不对称短路 三相短路时三相回路依旧是对称的,故称为对称短路。其它几种短路均使三相回路不对称,故称为不对称短路,如下: 3.产生短路的主要原因是电气设备载流部分的相间绝缘或相对 阅读全文
posted @ 2019-07-20 17:06 云山之巅 阅读(4232) 评论(0) 推荐(0) 编辑
摘要: 一.简介 ES中的索引都进行分片,每个分片都会保存多个副本。这些副本称为复制组,在添加或删除索引时必须同步副本。如果不这样,从不同的副本中读取的索引可能截然不同。保持分片副本同步并从中提供读取的过程被称为数据复制模型。 ES的数据复制模型基于主备份模型。该模型基于单一复制的副本组,该模型对应的分片充 阅读全文
posted @ 2019-07-16 20:58 云山之巅 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 一.简介 参考ECharts快速入门:https://www.cnblogs.com/yszd/p/11166048.html 二.代码实现 三.效果 阅读全文
posted @ 2019-07-16 17:43 云山之巅 阅读(1809) 评论(0) 推荐(0) 编辑
摘要: 一.简介 主要使用matplotlib基于python的可视化组件实现。 二.代码实现 三.结果 阅读全文
posted @ 2019-07-15 15:16 云山之巅 阅读(27197) 评论(0) 推荐(1) 编辑
摘要: 一.简介 ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖轻量级的矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可 阅读全文
posted @ 2019-07-10 19:40 云山之巅 阅读(1321) 评论(0) 推荐(0) 编辑
摘要: 一.一般属性 1.name fieldType的名称。该值用于字段定义中的类型属性,强烈建议名称仅包含字母数字和下划线,不能以数字开头【非强制】。 2.class 用于存储和索引此类型数据的类名。可以用solr作为前缀包含的类名称。solr会自动找出那些软件包可以定位到这个类 。如果使用的是第三方类 阅读全文
posted @ 2019-07-09 14:55 云山之巅 阅读(3179) 评论(0) 推荐(0) 编辑
摘要: 一.测试数据 二.代码实现 三.结果 阅读全文
posted @ 2019-07-07 12:02 云山之巅 阅读(3368) 评论(0) 推荐(0) 编辑
摘要: 一.简介 开窗函数row_number()是按照某个字段分组,然后取另外一个字段排序的前几个值的函数,相当于分组topN。如果SQL语句里面使用了开窗函数,那么这个SQL语句必须使用HiveContext执行。 二.代码实践【使用HiveContext】 三.结果【使用HiveContext】 1. 阅读全文
posted @ 2019-07-06 14:32 云山之巅 阅读(2791) 评论(0) 推荐(0) 编辑
摘要: 一.内置运算符 1关系运算符 2.算术运算符 3.逻辑运算符 4.复杂类型函数 5.复杂类型函数应用 阅读全文
posted @ 2019-07-03 20:02 云山之巅 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 一.严格模式 通过设置以下参数开启严格模式: >set hive.mapred.mode=strict;【默认为nonstrict非严格模式】 查询限制: 1.对于分区表,必须添加where查询条件来对分区字段进行条件过滤。 2.order by语句必须包含limit输出限制。 3.限制执行笛卡尔积 阅读全文
posted @ 2019-07-03 09:26 云山之巅 阅读(2020) 评论(0) 推荐(0) 编辑
摘要: 一.Storage Based Authorization in the Metastore Server >基于存储的授权,可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制【例如:列级别、行级别等】。 >启用当前认证方式后,dfs,add,delete,compile, 阅读全文
posted @ 2019-06-25 21:07 云山之巅 阅读(2929) 评论(0) 推荐(0) 编辑
摘要: 一.KNN简介 1.KNN算法也称为K邻近算法,是数据挖掘分类技术之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 2.KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本 阅读全文
posted @ 2019-06-22 20:17 云山之巅 阅读(5679) 评论(0) 推荐(0) 编辑
摘要: 一.Hive三种设计模式 1.默认配置【使用Netty存储元数据】 2.mysql【使用mysql存储元数据】 3.配置Thrift【使用mysql存储元数据】 二.执行步骤 三.scala访问Hive 阅读全文
posted @ 2019-06-18 16:11 云山之巅 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 一.表设计 1.预分区【Pre-Creating Regions】 默认情况下,在创建HBase表的时候会自动创建一个region分区,当写入数据时,所有的HBase客户端都向这一个region写数据,直到这个region足够大时才进行切分。因此,为了提高批量写入的效率可以预先创建好多个分区【这个要 阅读全文
posted @ 2019-06-18 10:51 云山之巅 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 一.目的 优化查询以及检索性能 二.创建索引 create index index_user on table user(name) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandle' wiith deferred rebu 阅读全文
posted @ 2019-06-17 17:07 云山之巅 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 一.特征 和关系型数据库中的普通视图一样,hive也支持视图。 二.特点 1.不支持物化视图。 2.只能查询,不能做加载数据操作。 3.视图的创建,只是保存一份元数据,查询视图时才执行对应的子查询。 4.view定义中若包含了ORDER BY/LIMIT语句,则当查询视图时也进行ORDER BY/L 阅读全文
posted @ 2019-06-14 21:45 云山之巅 阅读(3848) 评论(0) 推荐(0) 编辑
摘要: 一.简介 1.Lateral View 用于和UDTF函数【explode,split】结合来使用。 2.首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 3.主要解决在select使用UDTF做查询的过程中查询只能包含单个UDTF,不能包含其它字段以及多个UDTF的情 阅读全文
posted @ 2019-06-14 20:45 云山之巅 阅读(2517) 评论(0) 推荐(0) 编辑
摘要: 一.UserCF【基于用户】 基于用户的协同过滤,通过不同用户对商品的评分来评测用户之间的相似性,基于用户之间的相似性进行推荐。简单来说就是:给用户推荐和他兴趣相似的其它用户喜欢的商品。 二.ItemCF【基于商品】 基于商品的协同过滤,通过用户对不同商品的评分来评测商品之间的相似性,基于商品之间的 阅读全文
posted @ 2019-06-13 20:46 云山之巅 阅读(1481) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页