09 2017 档案

sqoop job 增量导入
摘要:使用sqoop job做增量导入 在执行导入模式为 incremental 的sqoop job 时,sqoop会获取上次导入操作的 –check-column的value值,也就是说使用sqoop job在做增量导入的时候,不用手动指定 --last-value的值但是也有这样的一种情况,sqoo 阅读全文

posted @ 2017-09-27 13:56 嘣嘣嚓 阅读(1621) 评论(0) 推荐(0)

sqoop job从创建到执行
摘要:在学习sqoop job之前,最好先学习一下sqoop命令的导入导出 sqoop 使用 import 将 mysql 中数据导入到 hive sqoop 使用 import 将 mysql 中数据导入到 hdfs sqoop 使用 export 将 hive 中数据导出到 mysql sqoop j 阅读全文

posted @ 2017-09-26 17:09 嘣嘣嚓 阅读(6162) 评论(0) 推荐(0)

sqoop导入增量数据
摘要:使用sqoop导入增量数据. 核心参数 --check-column 用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系行数据库中的自增字段及时间戳类似这些被指定的列的类型不能使用任意字符类型,如char、varchar等类型都是不可以的,同时 --check-col 阅读全文

posted @ 2017-09-20 17:30 嘣嘣嚓 阅读(1673) 评论(0) 推荐(0)

使用 sqoop 将mysql数据导入到hive表(import)
摘要:Sqoop将mysql数据导入到hive表中 先在mysql创建表 插入数据 在hive中创建表,表结构和mysql中一样 开始导入 导入成功后,会在hdfs中产生数据文件 在路径 /user/hive/warehouse/sqoop_test_table 下 hive中查看表数据 完成。 阅读全文

posted @ 2017-09-15 11:31 嘣嘣嚓 阅读(1523) 评论(0) 推荐(0)

统计apachelog各访问状态个数(使用MapReduce)
摘要:统计日志文件中各访问状态的个数. 1.将日志数据上传到hdfs 路径 /mapreduce/data/apachelog/in 中 内容如下 2.代码 3.将代码生成jar包 4.调用 EFdeMacBook-Pro:hadoop-2.8.0 FengZhen$ hadoop jar /Users/ 阅读全文

posted @ 2017-09-13 15:44 嘣嘣嚓 阅读(375) 评论(0) 推荐(0)

使用 sqoop 将mysql数据导入到hdfs(import)
摘要:Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 插入数据 2.hive 建表 3.使用sqoop将mysql数据导入到hdfs --delete-target-dir:如果目标目录存在则删除。 可在hdfs看到传入的数据 可在hive中查看数据。 使用sqoop将 阅读全文

posted @ 2017-09-13 11:22 嘣嘣嚓 阅读(1096) 评论(0) 推荐(0)

使用 sqoop 将 hive 数据导出到 mysql (export)
摘要:使用sqoop将hive中的数据传到mysql中 1.新建hive表 2.给hive表添加数据 数据如下1,fz,132,test,133,dx,18 3.将文件上传到hdfs对应目录下 上传成功进入hive 命令行可查看到数据 4.在mysql新建表,表结构和hive中的相同 5.使用sqoop传 阅读全文

posted @ 2017-09-13 10:38 嘣嘣嚓 阅读(6995) 评论(0) 推荐(0)

HBase启动后端口60010无法访问
摘要:配置好HBase后,想从浏览器通过端口60010看下节点情况,但是提示无法访问 在服务器上netstat -natl|grep 60010 发现并没有60010端口 原来是因为HBase 1.0 之后的版本都需要在hbase-site.xml中配置端口,如下 重新启动HBase,在浏览器再次访问,就 阅读全文

posted @ 2017-09-05 22:27 嘣嘣嚓 阅读(2298) 评论(0) 推荐(0)

HBase简介
摘要:1.HBase简介 HBase – Hadoop DataBase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用hadoop hdfs作为其文件存储系统,利用hadoop mapreduce来处理HBASE中的海量数据,利用zookeeper作为其分布式协同服务 主要用来存储 阅读全文

posted @ 2017-09-03 22:56 嘣嘣嚓 阅读(311) 评论(0) 推荐(0)

导航