ErBing

往事已经定格,未来还要继续。

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 2 3 4 5 6 ··· 8 下一页

2018年11月29日

摘要: 多线程是实现并发机制的一种有效手段。在 Java 中实现多线程有两种手段,一种是继承 Thread 类,另一种就是实现 Runnable/Callable 接口。 java.util.concurrent 包是专为 Java并发编程而设计的包。类图如下: 一、同步 1.1 synchronized 阅读全文
posted @ 2018-11-29 16:41 ErBing 阅读(609) 评论(0) 推荐(0) 编辑

2018年11月26日

摘要: 1、 crontab命令概念 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。 cron 系统调度进程。 可以使用它在每天的非高峰负荷时间段运行作业,或在一周或一月中的不同时段运行。cron是系统主要的调度进程,可 阅读全文
posted @ 2018-11-26 11:00 ErBing 阅读(11692) 评论(0) 推荐(0) 编辑

2018年11月22日

摘要: 1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeep 阅读全文
posted @ 2018-11-22 11:12 ErBing 阅读(406) 评论(0) 推荐(0) 编辑

2018年11月21日

摘要: 一、背景 按照年份升序排序,同时每一年中温度降序排序 data文件为1949年-1955年每天的温度数据。 要求:1、计算1949-1955年,每年温度最高的时间 2、计算1949-1955年,每年温度最高的十天 二、二次排序原理 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时 阅读全文
posted @ 2018-11-21 16:23 ErBing 阅读(333) 评论(0) 推荐(0) 编辑

2018年11月20日

摘要: 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(),接收1.1产生的<k,v>,进行处理,转换为新的<k,v>输出。 <hello,1> <you,1> <he 阅读全文
posted @ 2018-11-20 18:03 ErBing 阅读(479) 评论(0) 推荐(0) 编辑

2018年11月16日

摘要: 一、概述 Apache Spark 是一个快速的, 多用途的集群计算系统。 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习 阅读全文
posted @ 2018-11-16 16:45 ErBing 阅读(403) 评论(0) 推荐(0) 编辑

2018年10月30日

摘要: (ZKFC在NameNode上启动,NodeManager在DataNode上启动,可通过start-dfs.sh和start-yarn.sh,yarn-daemons.sh查看) 1、4台机器,64位cenos6.5系统,Hadoop版本2.6.5 2、配置/etc/hosts 3、安装JDK1. 阅读全文
posted @ 2018-10-30 16:33 ErBing 阅读(850) 评论(0) 推荐(0) 编辑

2018年10月29日

摘要: 一、简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 HBase – Had 阅读全文
posted @ 2018-10-29 17:22 ErBing 阅读(837) 评论(0) 推荐(0) 编辑

摘要: 本地测试环境(windows):1、在windows下配置hadoop的环境变量2、拷贝debug工具(winutils.exe)到hadoop目录中的bin目录,注意winutils.exe的版本要与hadoop版本对应,否则可能会报错。3、修改hadoop的源码 ,注意:确保项目的lib需要真实 阅读全文
posted @ 2018-10-29 14:50 ErBing 阅读(925) 评论(0) 推荐(0) 编辑

摘要: 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的re 阅读全文
posted @ 2018-10-29 11:34 ErBing 阅读(6108) 评论(1) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 8 下一页