07 2014 档案
摘要:Hive简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapRedu...
阅读全文
摘要:在shell工具中,有专门的getopt函数,使用方法如下所示:while getopts "d:t:vh" opt; do case "${opt}" in "d") DATE="${OPTARG}" ;; "t") ID="$...
阅读全文
摘要:今天需要将分析后的日志结果发布到网站上供其他人浏览,虽然用户可以通过直接使用url链接可以访问到对应的文件,但是毕竟还是不方便,没有一个类似文件浏览器的东西,可以直接查看文件夹和文件列表。 其实这样的工具在tomcat中本身就已经实现了,只不过以前没有使用。对于任何想要发布成文件服务的项目...
阅读全文
摘要:在Hadoop中一个作业被提交后,其后具体的执行流程要经历Map任务的提交中间结果处理,Reduce任务的分配和执行直至完成这些过程,下面就是MapReduce中作业详细的执行流程图(摘自《Hadoop实战》)。 在整个过程中,客户端中,编写MapReduce代码,配置并提交作业;Jo...
阅读全文
摘要:OS and File System根据Dell(因为我们的硬件采用dell的方案)关于hadoop调优的相关说明,改变几个Linux的默认设置,Hadoop的性能能够增长大概15%。 open file descriptors and files文件描述符是一个索引值,指向内核为每一个进程...
阅读全文
摘要:cron是一个Linux下的定时执行工具,无需人工干预,与quartz上的cron表达式稍有不同。由于cron是Linux上的内置基础服务,并不是所有服务器都是默认启动该服务的,如果没有启动可以使用下面的命令: sudo service cron restart/start/stop 使...
阅读全文
摘要:今天试图在服务器上搭建一个web服务器,顺便回顾了java web项目的入门,使用Servlet处理HTTP请求,并记录日志等操作。当很久没有做过web项目时,有些东西还是很容易忘记的。 Maven配置使用maven进行整个项目的构建,使用intellij idea IDE,填写完grou...
阅读全文
摘要:1. Ubuntu环境安装和基本配置 本例程中在MAC上安装使用的虚拟机Ubuntu系统(64位,desktop); 基本配置考虑到以后涉及到hadoop的应用便于权限的管理,特别地创建一个hadoop用户,user和group名称均为hadoop。首先创建hadoop用户组: sud...
阅读全文

浙公网安备 33010602011771号