随笔分类 - Hadoop/Spark/Hive
摘要:Hadoop中有两种基本的文件类型, 一个是SequenceFile, 一个MapFile 他们通过底层 I/O接口 FSDataOutputStream 来进行写入, 对外操作起来就像普通的文件操作. 两者的相同之处在于都存放了很多键值对 两者的不同在于MapFile是SequenceFile的升
阅读全文
摘要:HDFS的默认目录在 /user/username HDFS的开放端口在core-site.xml这个配置文件中指定, 一般为9000或8020, data node 的数据存放本地目录也在该文件中, hadoop.tmp.dir配置项中 当你执行命令时不指定目录时, 一般命令都会在这个目录下执行
阅读全文
摘要:Hadoop 使用python 来写 map-reduce, 关键就是利用标准输入和输出, 确切来说就是: import sys for line in sys.stdin pass() print "stdout" sys.stdin 和 print 两个函数 写好了mapper.py 和 red
阅读全文
摘要:安装Docker: sudo apt-get install curl curl -fsSL https://get.docker.com/ | sh 然后根据提示把自己的账户加到docker的组里, 这样以后运行docker命令时就不必前缀sudo了 测试docker是否成功运行(先重启一下机器)
阅读全文
摘要:先装Java 这里不再赘述 下载Derby 配置环境变量: 先定义%DERBY_HOME%为derby下载后的解压目录 在Path加入:%DERBY_HOME%\bin 在CLASSPATH加入:%DERBY_HOME%\lib \derby.jar;%DERBY_HOME%\lib\derbycl
阅读全文
摘要:VirtualBox虚拟机访问windows上的共享目录, 参考下面的链接: http://www.cnblogs.com/xing901022/p/5774677.html 简单来说就是安装一个增强功能(菜单栏里, 设备->安装增强功能),然后在ubuntu弹出的文件夹窗口里执行命令行语句: su
阅读全文
摘要:安装mysql (ubuntu): sudo apt-get install mysql-server 去 https://dev.mysql.com/downloads/connector/j/ 下载mysql的java驱动放到hive的lib目录里去 如果是deb安装包的话,装完后, 一般jar
阅读全文
摘要:package mapreduce; import java.util.List; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import org.apache.hadoop.
阅读全文
摘要:package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop
阅读全文
摘要:目前最新的Eclipse版本号叫 Neon.3 Release (4.6.3), 支持java8 读者阅读这篇文章的时候可能有了新的java版本和对应的eclipse版本出来了, 所以建议先去维基百科或者有关网站了解下应该下载什么版本的Eclipse. 使用Eclipse开发MapReduce程序,
阅读全文
摘要:Hadoop 2.0及以后的版本可以直接在windows上跑, 不用cygwin了, 凡是讲cygwin的攻略都可以忽略. 关于环境变量: 我实验下来要加的唯一一个环境变量是系统变量里的Path, 往里加上Hadoop的bin目录的路径. 关于winutils: 除了Hadoop安装包和JDK外,还
阅读全文