11 2017 档案

摘要:Linux运维遇到需要使用命令 查看Linux系统有多少用户 cat /etc/passwd | wc -l 查看用户占用的uid,默认情况下,ldap新增的用户和系统本地的用户uid是混在一起。在新建用户时就可以先用一下命令查看哪些uid已经被占用,可以提前做一些计划,不至于创建后发现已经占用,要 阅读全文
posted @ 2017-11-28 14:35 RZ_Lee 阅读(300) 评论(0) 推荐(0)
摘要:删除自带的java yum remove java java -version发现还有java,因为电脑上安装了多个版本的java,这时我们可以用 yum groupremove java 通过组的这种方式,把它彻底删除掉 阅读全文
posted @ 2017-11-19 00:40 RZ_Lee 阅读(274) 评论(0) 推荐(0)
摘要:首先pom文件导入依赖,Hadoop和hive的依赖导入自己机器的版本,hive记得导jdbc 新建UDF的Java类 打jar包,上传到Linux, 阅读全文
posted @ 2017-11-16 16:23 RZ_Lee 阅读(250) 评论(0) 推荐(0)
摘要:NameNode启动过程详解 第一次启动:HDFS格式化后,生成fsimage文件 hdf 阅读全文
posted @ 2017-11-15 18:36 RZ_Lee 阅读(224) 评论(0) 推荐(0)
摘要:如果是新添加一个节点,需要执行以下步骤: 首先,把新节点的 IP或主机名 加入主节点(master)的 conf/slaves 文件。 然后登录新的从节点,执行以下命令: 然后就可以在master机器上运行balancer,执行负载均衡 查看hadoop使用情况 查看Hadoop的hdfs目录下面文 阅读全文
posted @ 2017-11-15 17:27 RZ_Lee 阅读(234) 评论(0) 推荐(0)
摘要:日志生成 算出每个用户的上行流量总和 和下行流量的总和 阅读全文
posted @ 2017-11-12 21:28 RZ_Lee 阅读(1108) 评论(0) 推荐(0)
摘要:日志类型 计算每个学科最受欢迎的老师 另种角度来实现,过滤多次提交 使用自定义分区器将每个学科的数据shuffle到独自的分区,在分区内进行排序取topN 上面的方式会有多次shuffle,reduceByKey聚合数据的时候shuffle一次,使用自定义分区器重新对数据进行分析又shuffle了一 阅读全文
posted @ 2017-11-12 21:25 RZ_Lee 阅读(836) 评论(0) 推荐(0)
摘要:Producer SparkStreamingDemo 注意必须设置checkpoint 阅读全文
posted @ 2017-11-12 19:36 RZ_Lee 阅读(791) 评论(0) 推荐(0)
摘要:列表,元组 查 索引(下标) ,都是从0开始 切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展 修改 a[index] = "新的 阅读全文
posted @ 2017-11-10 12:14 RZ_Lee 阅读(176) 评论(0) 推荐(0)
摘要:Spark里面提供了一个比较重要的抽象——弹性分布式数据集(resilient distributed dataset),简称RDD。弹性:数据可大可小,可分布在内存或磁盘,当某台机器宕机时,能够按照RDD的liveage重新计算,从而恢复。 RDD有5个特性: 1.一个分区列表,用于并行计算,每个 阅读全文
posted @ 2017-11-10 01:02 RZ_Lee 阅读(298) 评论(0) 推荐(0)
摘要:Kafka是一个高吞吐量的分布式消息系统,一个分布式的发布-订阅消息系统。Kafka是一种快速,可拓展的,设计内在就是分布式的,分区的可复制的提交日志服务。 Apache Kafka与传统消息系统相比,有以下不同: 它设计为一个分布式系统,易于向外拓展; 它同时为发布和订阅提供高吞吐量; 它支持多订 阅读全文
posted @ 2017-11-08 10:19 RZ_Lee 阅读(293) 评论(0) 推荐(0)
摘要:用户编写Storm Topology 使用client提交Topology给Nimbus Nimbus指派Task给Supervisor Supervisor为Task启动Worker Worker执行Task 阅读全文
posted @ 2017-11-08 09:33 RZ_Lee 阅读(229) 评论(0) 推荐(0)
摘要:条件1 and 条件2 条件1 or 条件2 短路原则 对于and 如果前面的第一个条件为假,那么这个and前后两个条件组成的表达式的计算结果就一定为假,第二个条件就不会被计算 对于or 如果前面的第一个条件为真,那么这个or前后两个条件组成的表达式的计算结果就一定为真,第二个条件就不会被计算 阅读全文
posted @ 2017-11-07 08:50 RZ_Lee 阅读(319) 评论(0) 推荐(0)
摘要:写个shell脚本Hive 按时间定期插入分区表,由于今天统计的是昨天的数据所以日期减一。 阅读全文
posted @ 2017-11-03 13:52 RZ_Lee 阅读(1478) 评论(0) 推荐(0)
摘要:step1 input InputFormat读取数据,将数据转换成<key ,value>对,设置FileInputFormat,默认是文本格式(TextInputFormat) step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN: 阅读全文
posted @ 2017-11-03 11:43 RZ_Lee 阅读(2852) 评论(0) 推荐(0)
摘要:数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。大多数情况下,分为一下三种情况: 1.map端执行比较快,reduce执行很慢,因为partition造成的数据倾斜。 2.某些reduce很快,某些reduce很慢,也是因为partition造成的数据倾斜。 3.某些map执行很 阅读全文
posted @ 2017-11-03 01:21 RZ_Lee 阅读(4696) 评论(0) 推荐(0)