DataBases - 博客园

Spark Cluster

2020-04-15 11:26 by DataBases, 327 阅读, 0 推荐, 收藏,

摘要：(base) [root@pyspark sbin]# lsslaves.sh start-all.sh start-mesos-shuffle-service.sh start-thriftserver.sh stop-mesos-dispatcher.sh stop-slaves.shspark 阅读全文

0 Comment

Redis集群

2020-04-15 10:26 by DataBases, 442 阅读, 0 推荐, 收藏,

摘要：1.下载Redis安装包redis-5.0.5.tar.gz并放到/opt/目录下 2.所有Redis集群节点解压Redis安装包tar -zxvf redis-5.0.5.tar.gz 3.所有Redis集群节点安装Rediscd redis-5.0.5make && make install 4 阅读全文

0 Comment

Hive join优化

2020-04-10 18:29 by DataBases, 345 阅读, 0 推荐, 收藏,

摘要：MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率方法一：在Hive0.11前，必须使用MAPJOIN来标记显示地启阅读全文

0 Comment

MapReduce手机流量统计

2020-04-10 14:55 by DataBases, 352 阅读, 0 推荐, 收藏,

摘要：package com.yuejiesong.PhoneFlowCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWri 阅读全文

0 Comment

MapReduce

2020-04-10 13:05 by DataBases, 190 阅读, 0 推荐, 收藏,

摘要：在4个服务器中启动4个map任务每个map任务读取目标文件，每读一行就拆分一下单词，并记下来此单词出现了一次目标文件的每一行都处理完成后，需要把单词进行排序在3个服务器上启动reduce任务每个reduce获取一部分map的处理结果 reduce任务进行汇总统计，输出最终的结果数据 MapR 阅读全文

0 Comment

数据分析函数

2020-04-07 17:45 by DataBases, 191 阅读, 0 推荐, 收藏,

摘要：想要的数据在多张表里，想取多个字段表连接join两张表数据的字段一样，想合并起来 union去重 distinct分组聚合函数和group by筛选 where(行)/having(组)希望查询结果从高到低/从低到高排序？—— 排序 order by将数值型的变量转化为分类型的变量？—— case 阅读全文

0 Comment

Singleton

2020-03-31 17:07 by DataBases, 160 阅读, 0 推荐, 收藏,

摘要：单例模式（Singleton Pattern）是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式，它提供了一种创建对象的最佳方式。这种模式涉及到一个单一的类，该类负责创建自己的对象，同时确保只有单个对象被创建。这个类提供了一种访问其唯一的对象的方式，可以直接访问，不需要实例化该阅读全文

0 Comment

Java总结

2020-03-29 19:27 by DataBases, 199 阅读, 0 推荐, 收藏,

摘要：Java虚拟机： Class Loader：依据特定格式，加载class文件到内存； Execution Engine:对命令进行解析； Native Interface:融合不同开发语言的原生库为Java所用； Runtime Data Area:JVM内存空间的结构模型； Java反射： Jav 阅读全文

0 Comment

Hive优化

2020-03-29 19:03 by DataBases, 223 阅读, 0 推荐, 收藏,

摘要：整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true 阅读全文

0 Comment

MySQL索引

2020-03-24 20:55 by DataBases, 448 阅读, 0 推荐, 收藏,

摘要：https://www.cs.usfca.edu/~galles/visualization/source.html 使用索引的原因 1.通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。 2.可以大大加快数据的检索速度（大大减少的检索的数据量）, 这也是创建索引的最主要的原因。 3.帮助阅读全文

0 Comment

About