会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Xiaohu_BigData
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
12
13
14
15
16
17
18
19
20
···
23
下一页
2019年12月22日
大数据之路week07--day07 (Sqoop 从mysql增量导入到HDFS)
摘要: 我们之前导入的都是全量导入,一次性全部导入,但是实际开发并不是这样,例如web端进行用户注册,mysql就增加了一条数据,但是HDFS中的数据并没有进行更新,但是又再全部导入一次又完全没有必要。 所以,sqoop提供了增量导入的方法。 1、数据准备: 2、将其先用全量导入到HDFS中去 3、先在my
阅读全文
posted @ 2019-12-22 14:00 Xiaohu_BigData
阅读(519)
评论(0)
推荐(0)
2019年12月21日
大数据之路week07--day06 (Sqoop 在从HDFS中导出到关系型数据库时的一些问题)
摘要: 问题一: 在上传过程中遇到这种问题: ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOException: No columns to generate for ClassWriter 解决方式
阅读全文
posted @ 2019-12-21 21:50 Xiaohu_BigData
阅读(800)
评论(0)
推荐(0)
大数据之路week07--day06 (Sqoop 的使用)
摘要: Sqoop的使用一(将数据库中的表数据上传到HDFS) 首先我们先准备数据 1、没有主键的数据(下面介绍有主键和没有主键的使用区别) -- MySQL dump 10.13 Distrib 5.1.73, for redhat-linux-gnu (x86_64) -- -- Host: local
阅读全文
posted @ 2019-12-21 21:35 Xiaohu_BigData
阅读(494)
评论(0)
推荐(0)
大数据之路week07--day06 (Sqoop 的安装及配置)
摘要: Sqoop 的安装配置比较简单。 提供安装需要的安装包和连接mysql的驱动的百度云链接: 链接:https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码:62vt 1、下载后将两个都拖到自己安装Hive的节点上去,因为我们后面配置文件中会去配置这些,在
阅读全文
posted @ 2019-12-21 21:18 Xiaohu_BigData
阅读(283)
评论(0)
推荐(0)
大数据之路week07--day06 (Sqoop 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具)
摘要: 为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了。 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)
阅读全文
posted @ 2019-12-21 21:05 Xiaohu_BigData
阅读(515)
评论(0)
推荐(0)
2019年12月20日
大数据之路week07--day05 (Hive的搭建部署)
摘要: 在之前博客中我有记录安装JDK和Hadoop和Mysql的过程,如果还没有安装,请先进行安装配置好,对应的随笔我也提供了百度云下载连接。 安装JDK: https://www.cnblogs.com/wyh-study/p/12014368.html 安装Hadoop https://www.cnb
阅读全文
posted @ 2019-12-20 20:20 Xiaohu_BigData
阅读(727)
评论(0)
推荐(0)
大数据之路week07--day05 (一个基于Hadoop的数据仓库建模工具之一 HIve)
摘要: 什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用
阅读全文
posted @ 2019-12-20 19:46 Xiaohu_BigData
阅读(1216)
评论(0)
推荐(0)
大数据之路week07--day04 (Linux 中查看文件内容的关键字处)
摘要: Linux如何对文件内容中的关键字进行查找 如果是用vi打开文件后,在命令行下输入“/关键字” 如果是在没有打开文件的前提就用"cat 文件名 | grep "关键字"" 例如: cat 123.txt |grep dashuju 全部的都会列出来 shift+Z+Z 快速退出文件编辑 不保存
阅读全文
posted @ 2019-12-20 00:04 Xiaohu_BigData
阅读(208)
评论(0)
推荐(0)
2019年12月19日
大数据之路week07--day04 (YARN,Hadoop的优化,combline,join思想,)
摘要: hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢。 特点:数据本地化,减少网络io。 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征。 通常输入的数据首先在逻辑上(注意这里不是真正物理上划分)将会分片split,每个分片上构建一个m
阅读全文
posted @ 2019-12-19 20:34 Xiaohu_BigData
阅读(480)
评论(0)
推荐(0)
2019年12月18日
大数据之路week07--day03(Hadoop深入理解,JAVA代码编写WordCount程序,以及扩展升级)
摘要: 什么是MapReduce 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后
阅读全文
posted @ 2019-12-18 13:15 Xiaohu_BigData
阅读(460)
评论(0)
推荐(0)
上一页
1
···
12
13
14
15
16
17
18
19
20
···
23
下一页
公告