摘要: CAP 关键结论:若系统需容忍网络分区(Partition-tolerance),则必须在一致性(Consistency)和可用性(Availability)之间做出取舍。 网络分区(Partition-tolerance)特指分布式系统中节点间因网络故障导致通信完全中断,形成两个或多个彼此隔离的集 阅读全文
posted @ 2019-04-21 11:17 江湖小小白 阅读(547) 评论(0) 推荐(0)
摘要: pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文
posted @ 2019-04-19 15:13 江湖小小白 阅读(243) 评论(1) 推荐(0)
摘要: 定义 优缺点 运行 组成 输入和输出 虽然 Hadoop 框架是用 Java™ 实现的,但 MapReduce 应用程序不一定需要用 Java 编写: Hadoop Streaming 是一个实用程序,它允许用户使用任何可执行文件(如shell)作为 mapper 和/或 reducer 创建和运行 阅读全文
posted @ 2019-04-18 15:34 江湖小小白 阅读(403) 评论(0) 推荐(0)
摘要: Hadoop 序列化特点 常用数据类型对应的 Hadoop 数据序列化类型 Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long Long 阅读全文
posted @ 2019-04-18 13:47 江湖小小白 阅读(1410) 评论(0) 推荐(0)
摘要: pom.xml Code 本地运行 input(123.txt) output(part-r-00000) 打包在集群上运行 使用 maven-assembly-plugin 打包,使用方法:http://maven.apache.org/components/plugins/maven-assem 阅读全文
posted @ 2019-04-17 16:10 江湖小小白 阅读(208) 评论(0) 推荐(0)
摘要: Architecture Standalone https://nightlies.apache.org/flink/flink-docs-release-2.0/zh/docs/try-flink/local_installation curl -LOJ https://mirrors.cloud 阅读全文
posted @ 2019-04-17 14:33 江湖小小白 阅读(9092) 评论(0) 推荐(0)
摘要: 一、NameNode、Fsimage 、Edits 和 SecondaryNameNode 概述 NameNode:在内存中储存 HDFS 文件的元数据信息(目录) Fsimage(镜像文件) 和 Edits(编辑日志):记录内存中的元数据 SecondaryNameNode:负责 Edits 转化 阅读全文
posted @ 2019-04-16 16:09 江湖小小白 阅读(1189) 评论(0) 推荐(0)
摘要: 一、原始数据(默认会生成一个 rownum 的序列,如下图的第一列) select t.* from ZD_DIC t where t.zdlx = '人员类型' 二、先分组,再给组内的内容进行排序 这里可以 partition by xxx, xxx, xxx 多个字段 select t.*, r 阅读全文
posted @ 2019-04-15 20:48 江湖小小白 阅读(2892) 评论(0) 推荐(0)
摘要: 一、上传数据 二、下载数据 三、读写时的节点位置选择 1.网络节点距离(机架感知) 2.Block 的副本放置策略 NameNode 通过 Hadoop Rack Awareness 确定每个 DataNode 所属的机架 ID 简单但非最优的策略 常见情况策略(HDFS 采取的策略) 如果复制因子 阅读全文
posted @ 2019-04-14 22:36 江湖小小白 阅读(905) 评论(0) 推荐(0)
摘要: 一、先看集群上的配置,这里设置了文件块副本数为 3 上传一个文件试试 二、在资源目录添加 hdfs-site.xml 配置后再上传 代码中的上传名字做下改变 三、在代码中指定下配置参数 总结:代码设置 > 工程资源目录配置 > 集群配置 > 默认配置 阅读全文
posted @ 2019-04-14 13:26 江湖小小白 阅读(615) 评论(0) 推荐(0)
摘要: 下载 Visual Studio Code https://code.visualstudio.com 下载慢:将下载地址中的 az764295.vo.msecnd.net 替换为 vscode.cdn.azure.cn 也可以安装 VS Code Web 版本 # vscode 配置目录 mkdi 阅读全文
posted @ 2019-04-13 23:50 江湖小小白 阅读(826) 评论(0) 推荐(0)
摘要: 一、pom.xml 二、测试 文件上传 手动 IO 流方式 文件下载 手动 IO 流方式 分块方式,这里要下载的文件被 hdfs 切割成了 3 块 分块下载完毕后合并文件 文件删除 重命名 查看文件详情 判断是文件还是文件夹 Windows 运行 Hadoop 问题:https://wiki.apa 阅读全文
posted @ 2019-04-13 00:48 江湖小小白 阅读(1327) 评论(0) 推荐(0)
摘要: 一、插件的解析,所有插件都会被添加到 InterceptorChain 类中,用于后续处理 org.apache.ibatis.builder.xml.XMLConfigBuilder private void pluginElement(XNode parent) throws Exception 阅读全文
posted @ 2019-04-12 11:39 江湖小小白 阅读(1500) 评论(0) 推荐(0)
摘要: 一、使用 setrep 命令来设置 二、文件块在磁盘上的路径 三、文件的分割 四、改变副本数后的文件的变化 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 阅读全文
posted @ 2019-04-12 00:16 江湖小小白 阅读(8010) 评论(2) 推荐(1)
摘要: Components https://blog.csdn.net/Young_IT/article/details/133808672 & https://segmentfault.com/a/1190000038683520 Local 单机,Spark 做计算,也做资源调度 curl -LOJ 阅读全文
posted @ 2019-04-11 23:31 江湖小小白 阅读(4782) 评论(0) 推荐(1)