随笔档案「2017年11月」 - RZ_Lee

Linux- 运维

摘要：Linux运维遇到需要使用命令查看Linux系统有多少用户 cat /etc/passwd | wc -l 查看用户占用的uid，默认情况下，ldap新增的用户和系统本地的用户uid是混在一起。在新建用户时就可以先用一下命令查看哪些uid已经被占用，可以提前做一些计划，不至于创建后发现已经占用，要阅读全文

posted @ 2017-11-28 14:35 RZ_Lee 阅读(300) 评论(0) 推荐(0)

JAVA- 切换默认的Java

摘要：删除自带的java yum remove java java -version发现还有java，因为电脑上安装了多个版本的java，这时我们可以用 yum groupremove java 通过组的这种方式，把它彻底删除掉阅读全文

posted @ 2017-11-19 00:40 RZ_Lee 阅读(274) 评论(0) 推荐(0)

HIVE- 新建UDF范例

摘要：首先pom文件导入依赖，Hadoop和hive的依赖导入自己机器的版本，hive记得导jdbc 新建UDF的Java类打jar包，上传到Linux，阅读全文

posted @ 2017-11-16 16:23 RZ_Lee 阅读(250) 评论(0) 推荐(0)

Hadoop- 集群启动详解

摘要：NameNode启动过程详解第一次启动：HDFS格式化后，生成fsimage文件 hdf 阅读全文

posted @ 2017-11-15 18:36 RZ_Lee 阅读(224) 评论(0) 推荐(0)

Hadoop- Hadoop运维小计

摘要：如果是新添加一个节点，需要执行以下步骤：首先，把新节点的 IP或主机名加入主节点（master）的 conf/slaves 文件。然后登录新的从节点，执行以下命令：然后就可以在master机器上运行balancer，执行负载均衡查看hadoop使用情况查看Hadoop的hdfs目录下面文阅读全文

posted @ 2017-11-15 17:27 RZ_Lee 阅读(234) 评论(0) 推荐(0)

Spark- 流量日志分析

摘要：日志生成算出每个用户的上行流量总和和下行流量的总和阅读全文

posted @ 2017-11-12 21:28 RZ_Lee 阅读(1108) 评论(0) 推荐(0)

Spark- 计算每个学科最受欢迎的老师

摘要：日志类型计算每个学科最受欢迎的老师另种角度来实现，过滤多次提交使用自定义分区器将每个学科的数据shuffle到独自的分区，在分区内进行排序取topN 上面的方式会有多次shuffle，reduceByKey聚合数据的时候shuffle一次，使用自定义分区器重新对数据进行分析又shuffle了一阅读全文

posted @ 2017-11-12 21:25 RZ_Lee 阅读(836) 评论(0) 推荐(0)

Spark- SparkStreaming可更新状态的实例

摘要：Producer SparkStreamingDemo 注意必须设置checkpoint 阅读全文

posted @ 2017-11-12 19:36 RZ_Lee 阅读(791) 评论(0) 推荐(0)

Python- 列表内置方法

摘要：列表，元组查索引(下标) ，都是从0开始切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展修改 a[index] = "新的阅读全文

posted @ 2017-11-10 12:14 RZ_Lee 阅读(176) 评论(0) 推荐(0)

Spark- RDD简介

摘要：Spark里面提供了一个比较重要的抽象——弹性分布式数据集（resilient distributed dataset），简称RDD。弹性：数据可大可小，可分布在内存或磁盘，当某台机器宕机时，能够按照RDD的liveage重新计算，从而恢复。 RDD有5个特性： 1.一个分区列表，用于并行计算，每个阅读全文

posted @ 2017-11-10 01:02 RZ_Lee 阅读(298) 评论(0) 推荐(0)

Kafka- Kafka架构功能

摘要：Kafka是一个高吞吐量的分布式消息系统，一个分布式的发布-订阅消息系统。Kafka是一种快速，可拓展的，设计内在就是分布式的，分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比，有以下不同：它设计为一个分布式系统，易于向外拓展；它同时为发布和订阅提供高吞吐量；它支持多订阅读全文

posted @ 2017-11-08 10:19 RZ_Lee 阅读(293) 评论(0) 推荐(0)

Storm- Storm作业提交运行流程

摘要：用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task 阅读全文

posted @ 2017-11-08 09:33 RZ_Lee 阅读(229) 评论(0) 推荐(0)

Python- and & or 的短路原则

摘要：条件1 and 条件2 条件1 or 条件2 短路原则对于and 如果前面的第一个条件为假，那么这个and前后两个条件组成的表达式的计算结果就一定为假，第二个条件就不会被计算对于or 如果前面的第一个条件为真，那么这个or前后两个条件组成的表达式的计算结果就一定为真，第二个条件就不会被计算阅读全文

posted @ 2017-11-07 08:50 RZ_Lee 阅读(319) 评论(0) 推荐(0)

Hive- Hive 按时间定期插入分区表

摘要：写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。阅读全文

posted @ 2017-11-03 13:52 RZ_Lee 阅读(1478) 评论(0) 推荐(0)

Hadoop- MR的shuffle过程

摘要：step1 input InputFormat读取数据，将数据转换成<key ,value>对,设置FileInputFormat，默认是文本格式（TextInputFormat） step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN: 阅读全文

posted @ 2017-11-03 11:43 RZ_Lee 阅读(2852) 评论(0) 推荐(0)

HIVE- 数据倾斜

摘要：数据倾斜就是由于数据分布不均匀，数据大量集中到一点上，造成数据热点。大多数情况下，分为一下三种情况： 1.map端执行比较快，reduce执行很慢，因为partition造成的数据倾斜。 2.某些reduce很快，某些reduce很慢，也是因为partition造成的数据倾斜。 3.某些map执行很阅读全文

posted @ 2017-11-03 01:21 RZ_Lee 阅读(4696) 评论(0) 推荐(0)

RZ_Lee

积累点滴，终成大器

11 2017 档案

公告