完成了Coursera的一个机器学习课程
摘要:终于完成了这个课程,从开始学习,到现在差不多过了一年的时间,中间由于一些原因耽搁了,最终还是完成了,记录一下!
阅读全文
posted @
2017-09-26 17:06
单行道|
阅读(236)
推荐(0)
Linux java 命令行编译 jar包
摘要:Java 命令行编译成class,然后在打包成jar文件。 编译成class 可以通过javac 命令查看帮助 -classpath 指定依赖的class,:进行分隔 -d 生成的class存放的目录 打包成jar 将class目录下的内容全部打包,并且将自己写的MANIFEST.MF文件打包,以便
阅读全文
posted @
2017-09-25 16:05
单行道|
阅读(4766)
推荐(0)
Mapreduce打印调试输出
摘要:Mapreduce打印调试内容: 一、启动JobHistoryServer 通过jps查看JobHistoryServer进程存在,启动成功。 在8088端口,查看作业,点击History: 点击logs: 提示: 接下来修改配置 二、修改yarn配置文件 yarn-site.xml 重启hadoo
阅读全文
posted @
2017-09-21 23:37
单行道|
阅读(818)
推荐(0)
Hive 表分区
摘要:Hive表的分区就是一个目录,分区字段不和表的字段重复 创建分区表: 加载数据到hive分区表中 方法一:通过load方式加载 方法二:insert select 方式 方法三:可通过手动上传文件到分区目录,进行加载 虽然方法三手动上传文件到分区目录,但是查询表的时候是查询不到数据的,需要更新元数据
阅读全文
posted @
2017-09-19 11:13
单行道|
阅读(19103)
推荐(2)
Hive 数据的导入导出
摘要:数据的导入: 通过文件导入,使用load命令 一、导入本地文件: 二、导入hdfs文件: 差别主要在 local 参数, overwrite 参数会删除之前的数据,然后再进行插入。 通过过已有的表数据进行导入,使用insert命令: 注意,这里的数据导入,是在已经存在表结构的前提下进行的。 数据导出
阅读全文
posted @
2017-09-18 17:17
单行道|
阅读(324)
推荐(0)
Hive 创建表
摘要:创建表的三种方式: 方式一:新建表结构 方式二:复用已有的表结构 方式三:拷贝表结构和表数据 内部表:managed_table外部表:external_table 内部表被删除时,hdfs上的数据,和元数据(mysql)上的数据都被删除。 外部表被删除时,hdfs上的数据还在,只删除元数据(mys
阅读全文
posted @
2017-09-18 16:53
单行道|
阅读(721)
推荐(0)
CDH hive-1.1.0-cdh5.10.0 安装
摘要:又重新安装Hive,记录一下吧: hadoop早已经装上了。 cdh5的hive下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 下载文件:hive-1.1.0-cdh5.10.0.tar.gz 操作系统版本:CentOS CentOS Linux rele
阅读全文
posted @
2017-09-18 15:49
单行道|
阅读(2083)
推荐(0)
Linux shell ftp命令下载文件 根据文件日期
摘要:需求:ftp获取远程数据的文件,根据文件的创建时间点下载文件。 可以自行扩展根据文件的大小等其他需求。 知识点总结: 1、获取文件的时间: 时间内容: Sep 8 16:03 2、时间格式转换 转换结果: 201709081603 3、指定文件名,正则匹配 注意awk里面模式变量用' '括起来,.*
阅读全文
posted @
2017-09-15 15:19
单行道|
阅读(5344)
推荐(0)