摘要:(base) [root@pyspark sbin]# lsslaves.sh start-all.sh start-mesos-shuffle-service.sh start-thriftserver.sh stop-mesos-dispatcher.sh stop-slaves.shspark 阅读全文
Redis集群
2020-04-15 10:26 by DataBases, 441 阅读, 0 推荐, 收藏,
摘要:1.下载Redis安装包redis-5.0.5.tar.gz并放到/opt/目录下 2.所有Redis集群节点解压Redis安装包tar -zxvf redis-5.0.5.tar.gz 3.所有Redis集群节点安装Rediscd redis-5.0.5make && make install 4 阅读全文
Hive join优化
2020-04-10 18:29 by DataBases, 339 阅读, 0 推荐, 收藏,
摘要:MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率 方法一: 在Hive0.11前,必须使用MAPJOIN来标记显示地启 阅读全文
MapReduce手机流量统计
2020-04-10 14:55 by DataBases, 351 阅读, 0 推荐, 收藏,
摘要:package com.yuejiesong.PhoneFlowCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWri 阅读全文
MapReduce
2020-04-10 13:05 by DataBases, 187 阅读, 0 推荐, 收藏,
摘要:在4个服务器中启动4个map任务 每个map任务读取目标文件,每读一行就拆分一下单词,并记下来此单词出现了一次 目标文件的每一行都处理完成后,需要把单词进行排序 在3个服务器上启动reduce任务 每个reduce获取一部分map的处理结果 reduce任务进行汇总统计,输出最终的结果数据 MapR 阅读全文
数据分析函数
2020-04-07 17:45 by DataBases, 190 阅读, 0 推荐, 收藏,
摘要:想要的数据在多张表里,想取多个字段 表连接join两张表数据的字段一样,想合并起来 union去重 distinct分组聚合函数和group by筛选 where(行)/having(组)希望查询结果从高到低/从低到高排序?—— 排序 order by将数值型的变量转化为分类型的变量?—— case 阅读全文
Singleton
2020-03-31 17:07 by DataBases, 158 阅读, 0 推荐, 收藏,
摘要:单例模式(Singleton Pattern)是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 这种模式涉及到一个单一的类,该类负责创建自己的对象,同时确保只有单个对象被创建。这个类提供了一种访问其唯一的对象的方式,可以直接访问,不需要实例化该 阅读全文
Java总结
2020-03-29 19:27 by DataBases, 199 阅读, 0 推荐, 收藏,
摘要:Java虚拟机: Class Loader:依据特定格式,加载class文件到内存; Execution Engine:对命令进行解析; Native Interface:融合不同开发语言的原生库为Java所用; Runtime Data Area:JVM内存空间的结构模型; Java反射: Jav 阅读全文
Hive优化
2020-03-29 19:03 by DataBases, 223 阅读, 0 推荐, 收藏,
摘要:整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true 阅读全文
MySQL索引
2020-03-24 20:55 by DataBases, 448 阅读, 0 推荐, 收藏,
摘要:https://www.cs.usfca.edu/~galles/visualization/source.html 使用索引的原因 1.通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。 2.可以大大加快 数据的检索速度(大大减少的检索的数据量), 这也是创建索引的最主要的原因。 3.帮助 阅读全文
浙公网安备 33010602011771号