摘要: 1 运行环境说明 1.1 硬软件环境 1.2 机器网络环境 2 书面作业1:计算员工相关 2.1 书面作业1内容 2.2 实现过程 2.2.1 准备测试数据 2.2.2 问题1:求各个部门的总工资 2.2.3 问题2:求各个部门的人数和平均工资 2.2.4 问题3:求每个部门最早进入公司的员工姓名 阅读全文
posted @ 2016-09-27 08:34 thinker1017 阅读(1070) 评论(0) 推荐(1)
摘要: 先随机生成一个矩阵,矩阵的行数与列数由用户输入: #!/bin/bashfor i in `seq 1 $1`do for j in `seq 1 $2` do s=$((RANDOM%100)) echo "s "$s echo -e "$i,$j\t$s" >>M_$1_$2 donedone 阅读全文
posted @ 2016-09-25 12:00 thinker1017 阅读(728) 评论(0) 推荐(0)
摘要: Mdrill集群安装 mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL 阅读全文
posted @ 2016-09-25 09:33 thinker1017 阅读(638) 评论(0) 推荐(0)
摘要: Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,Spark Streaming需要checkpoint足够的信息到容错存储系统中, 以使系统从故障中恢复。 Metadata checkpointing:保 阅读全文
posted @ 2016-09-01 20:50 thinker1017 阅读(385) 评论(0) 推荐(0)
摘要: 如果只是用kafka-topics.sh的delete命令删除topic,会有两种情况: 如果当前topic没有使用过即没有传输过信息:可以彻底删除 如果当前topic有使用过即有过传输过信息:并没有真正删除topic只是把这个topic标记为删除(marked for deletion)。 要彻底 阅读全文
posted @ 2016-09-01 20:47 thinker1017 阅读(19414) 评论(0) 推荐(0)
摘要: 最近在spark读取kafka消息时,每次读取都会从kafka最新的offset读取。但是如果数据丢失,如果在使用Kafka来分发消息,在数据处理的过程中可能会出现处理程序出异常或者是其它的错误,会造成数据丢失或不一致。这个时候你也许会想要通过kafka把数据从新处理一遍,或者指定kafka的off 阅读全文
posted @ 2016-09-01 20:44 thinker1017 阅读(26327) 评论(0) 推荐(2)
摘要: 4.1、环境: 1)Linux 64 位操作系统,CentOS 6.4 版本,VMWare 搭建的虚拟机 2)虚拟机可以联网 1)Linux 64 位操作系统,CentOS 6.4 版本,VMWare 搭建的虚拟机 2)虚拟机可以联网 1)Linux 64 位操作系统,CentOS 6.4 版本,V 阅读全文
posted @ 2016-02-17 17:01 thinker1017 阅读(238) 评论(0) 推荐(0)
摘要: 除了分享和讨论经典的数据挖掘和机器学习的算法,为了大家能更好的了解并实践这些算法,DMC特意为大家搜寻了一些大数据的数据源连接。 由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按 阅读全文
posted @ 2016-02-02 15:01 thinker1017 阅读(499) 评论(0) 推荐(0)
摘要: 只需编辑/etc/init.d/rc.local文件,在最后加上你的脚本即可。比如:我已经编写了一个脚本shell.sh,存放在/home/mars704/Desktop/ 下面在终端输入 gedit /etc/init.d/rc.local编辑文件,在结尾出加入:/home/mars704/Des... 阅读全文
posted @ 2015-11-26 17:47 thinker1017 阅读(234) 评论(0) 推荐(0)
摘要: 经过对比,0.94。5以后版本主要过程基本类似(有些新功能和细节增加) 一、 Compact 2.1. Compact主要来源 来自四个方面:1、Memstoreflush时;2、HRegionServer定期做Compaction Checker时;3、HBaseAdmin客户端发起的请求;4、C 阅读全文
posted @ 2015-11-26 17:41 thinker1017 阅读(568) 评论(0) 推荐(0)