Hadoop/Spark/Hive - 随笔分类(第4页) - 爱知菜

Hadoop SequenceFile 详解

摘要：Hadoop中有两种基本的文件类型, 一个是SequenceFile, 一个MapFile 他们通过底层 I/O接口 FSDataOutputStream 来进行写入, 对外操作起来就像普通的文件操作. 两者的相同之处在于都存放了很多键值对两者的不同在于MapFile是SequenceFile的升阅读全文

posted @ 2017-12-18 19:18 爱知菜阅读(52) 评论(0) 推荐(0)

Hadoop IO 以及 HDFS manipulation 简介有用的命令行

摘要：HDFS的默认目录在 /user/username HDFS的开放端口在core-site.xml这个配置文件中指定, 一般为9000或8020, data node 的数据存放本地目录也在该文件中, hadoop.tmp.dir配置项中当你执行命令时不指定目录时, 一般命令都会在这个目录下执行阅读全文

posted @ 2017-11-27 16:29 爱知菜阅读(32) 评论(0) 推荐(0)

Hadoop 使用 Python 来写 map-reduce

摘要：Hadoop 使用python 来写 map-reduce, 关键就是利用标准输入和输出, 确切来说就是: import sys for line in sys.stdin pass() print "stdout" sys.stdin 和 print 两个函数写好了mapper.py 和 red 阅读全文

posted @ 2017-10-17 16:46 爱知菜阅读(23) 评论(0) 推荐(0)

ubuntu 下 docker 安装和 hadoop镜像安装

摘要：安装Docker: sudo apt-get install curl curl -fsSL https://get.docker.com/ | sh 然后根据提示把自己的账户加到docker的组里, 这样以后运行docker命令时就不必前缀sudo了测试docker是否成功运行(先重启一下机器) 阅读全文

posted @ 2017-10-10 13:33 爱知菜阅读(62) 评论(0) 推荐(0)

Derby 初探

摘要：先装Java 这里不再赘述下载Derby 配置环境变量: 先定义%DERBY_HOME%为derby下载后的解压目录在Path加入：%DERBY_HOME%\bin 在CLASSPATH加入：%DERBY_HOME%\lib \derby.jar;%DERBY_HOME%\lib\derbycl 阅读全文

posted @ 2017-09-05 15:31 爱知菜阅读(6) 评论(0) 推荐(0)

ubuntu16+virtualbox 安装 hadoop(共享目录, tar, 改主机名hostname)杂记

摘要：VirtualBox虚拟机访问windows上的共享目录, 参考下面的链接: http://www.cnblogs.com/xing901022/p/5774677.html 简单来说就是安装一个增强功能(菜单栏里, 设备->安装增强功能),然后在ubuntu弹出的文件夹窗口里执行命令行语句: su 阅读全文

posted @ 2017-05-09 12:37 爱知菜阅读(15) 评论(0) 推荐(0)

Hadoop 2.8 +Mysql 搭建Hive2.x.x

摘要：安装mysql (ubuntu): sudo apt-get install mysql-server 去 https://dev.mysql.com/downloads/connector/j/ 下载mysql的java驱动放到hive的lib目录里去如果是deb安装包的话，装完后，一般jar 阅读全文

posted @ 2017-05-08 20:45 爱知菜阅读(30) 评论(0) 推荐(0)

Hadoop MapReduce 在某一列上自连接(self join)

摘要：package mapreduce; import java.util.List; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import org.apache.hadoop. 阅读全文

posted @ 2017-04-20 21:47 爱知菜阅读(17) 评论(0) 推荐(0)

hadoop 2.8 简单数字排序

摘要：package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop 阅读全文

posted @ 2017-04-19 17:25 爱知菜阅读(22) 评论(0) 推荐(0)

在Windows上用Eclipse开发WordCount jar包, 并运行在hadoop上

摘要：目前最新的Eclipse版本号叫 Neon.3 Release (4.6.3), 支持java8 读者阅读这篇文章的时候可能有了新的java版本和对应的eclipse版本出来了, 所以建议先去维基百科或者有关网站了解下应该下载什么版本的Eclipse. 使用Eclipse开发MapReduce程序, 阅读全文

posted @ 2017-04-18 18:05 爱知菜阅读(52) 评论(0) 推荐(0)

Hadoop 2.8 在 windows 平台上的搭建(单节点)

摘要：Hadoop 2.0及以后的版本可以直接在windows上跑, 不用cygwin了, 凡是讲cygwin的攻略都可以忽略. 关于环境变量: 我实验下来要加的唯一一个环境变量是系统变量里的Path, 往里加上Hadoop的bin目录的路径. 关于winutils: 除了Hadoop安装包和JDK外,还阅读全文

posted @ 2017-04-17 19:17 爱知菜阅读(34) 评论(0) 推荐(0)

爱知菜的技术博客

随笔分类 - Hadoop/Spark/Hive

公告