随笔档案「2017年9月」 - 单行道|

摘要：终于完成了这个课程，从开始学习，到现在差不多过了一年的时间，中间由于一些原因耽搁了，最终还是完成了，记录一下！阅读全文

posted @ 2017-09-26 17:06 单行道| 阅读(236) 评论(0) 推荐(0)

摘要：Java 命令行编译成class，然后在打包成jar文件。编译成class 可以通过javac 命令查看帮助 -classpath 指定依赖的class，:进行分隔 -d 生成的class存放的目录打包成jar 将class目录下的内容全部打包，并且将自己写的MANIFEST.MF文件打包，以便阅读全文

posted @ 2017-09-25 16:05 单行道| 阅读(4766) 评论(0) 推荐(0)

Mapreduce打印调试输出

摘要：Mapreduce打印调试内容：一、启动JobHistoryServer 通过jps查看JobHistoryServer进程存在，启动成功。在8088端口，查看作业，点击History: 点击logs: 提示：接下来修改配置二、修改yarn配置文件 yarn-site.xml 重启hadoo 阅读全文

posted @ 2017-09-21 23:37 单行道| 阅读(818) 评论(0) 推荐(0)

Hive 表分区

摘要：Hive表的分区就是一个目录，分区字段不和表的字段重复创建分区表：加载数据到hive分区表中方法一：通过load方式加载方法二：insert select 方式方法三：可通过手动上传文件到分区目录，进行加载虽然方法三手动上传文件到分区目录，但是查询表的时候是查询不到数据的，需要更新元数据阅读全文

posted @ 2017-09-19 11:13 单行道| 阅读(19103) 评论(0) 推荐(2)

Hive 数据的导入导出

摘要：数据的导入：通过文件导入，使用load命令一、导入本地文件：二、导入hdfs文件：差别主要在 local 参数， overwrite 参数会删除之前的数据，然后再进行插入。通过过已有的表数据进行导入，使用insert命令：注意，这里的数据导入，是在已经存在表结构的前提下进行的。数据导出阅读全文

posted @ 2017-09-18 17:17 单行道| 阅读(324) 评论(0) 推荐(0)

Hive 创建表

摘要：创建表的三种方式：方式一：新建表结构方式二：复用已有的表结构方式三：拷贝表结构和表数据内部表：managed_table外部表：external_table 内部表被删除时，hdfs上的数据，和元数据(mysql)上的数据都被删除。外部表被删除时，hdfs上的数据还在，只删除元数据(mys 阅读全文

posted @ 2017-09-18 16:53 单行道| 阅读(721) 评论(0) 推荐(0)

Hive 实现 wordcount

摘要：创建表：执行查询SQL：阅读全文

posted @ 2017-09-18 16:27 单行道| 阅读(369) 评论(0) 推荐(0)

CDH hive-1.1.0-cdh5.10.0 安装

摘要：又重新安装Hive，记录一下吧： hadoop早已经装上了。 cdh5的hive下载地址： http://archive.cloudera.com/cdh5/cdh/5/ 下载文件：hive-1.1.0-cdh5.10.0.tar.gz 操作系统版本：CentOS CentOS Linux rele 阅读全文

posted @ 2017-09-18 15:49 单行道| 阅读(2083) 评论(0) 推荐(0)

Linux shell ftp命令下载文件根据文件日期

摘要：需求：ftp获取远程数据的文件，根据文件的创建时间点下载文件。可以自行扩展根据文件的大小等其他需求。知识点总结： 1、获取文件的时间：时间内容： Sep 8 16:03 2、时间格式转换转换结果： 201709081603 3、指定文件名，正则匹配注意awk里面模式变量用' '括起来，.* 阅读全文

posted @ 2017-09-15 15:19 单行道| 阅读(5344) 评论(0) 推荐(0)