大数据之路 - 随笔分类(第2页) - Xiaohu_BigData

大数据之路Week08_day02 (Flume的使用举例（从控制台输入数据，从本地打数据到HDFS，从java代码中进行捕获打入到HDFS，flume监控http source））

摘要：在使用之前，提供一个大致思想，使用Flume的过程是确定scource类型，channel类型和sink类型，编写conf文件并开启服务，在数据捕获端进行传入数据流入到目的地。实例一、从控制台打入数据，在控制台显示 1、确定scource类型，channel类型和sink类型确定的使用类型分别是阅读全文

posted @ 2019-12-24 21:59 Xiaohu_BigData 阅读(405) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume 三个组件Source, channel, sink）

摘要：在使用之前，先介绍组件Flume的特点和一些组件 Flume的优势： 1. Flume可以将应用产生的数据存储到任何集中存储器中，比如HDFS,HBase 2. 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume 阅读全文

posted @ 2019-12-24 21:05 Xiaohu_BigData 阅读(766) 评论(0) 推荐(0)

大数据之路Week08_day02 (Flume架构介绍和安装)

摘要：Flume架构介绍和安装写在前面在学习一门新的技术之前，我们得知道了解这个东西有什么用？我们可以使用它来做些什么呢？简单来说，flume是大数据日志分析中不能缺少的一个组件，既可以使用在流处理中，也可以使用在数据的批处理中。1.流处理：2.离线批处理：分析：不管你是数据的实时流处理，还是数据的离线阅读全文

posted @ 2019-12-24 20:45 Xiaohu_BigData 阅读(332) 评论(0) 推荐(0)

Hive调优

摘要：cd /optvi test.sh #!/bin/bash datetime=(date′+source/etc/profilehive−e"loaddatalocalinpath′/opt/datame.txt′intotableshujuku.tablenamepartition(dt 阅读全文

posted @ 2019-12-24 14:03 Xiaohu_BigData 阅读(614) 评论(0) 推荐(0)

hive的shell用法（脑子糊涂了，对着脚本第一行是 #!/bin/sh 疯狂执行hive -f 结果报错）

摘要：hive脚本的执行方式 hive脚本的执行方式大致有三种： hive控制台执行； hive -e "SQL"执行； hive -f SQL文件执行；参考hive用法： usage: hive -d,--define <key=value> Variable subsitution to apply 阅读全文

posted @ 2019-12-23 22:50 Xiaohu_BigData 阅读(1458) 评论(0) 推荐(0)

Week08_day01 (Hive 自定义函数 UDF 一个输入，一个输出（最常用）)

摘要：当我们进入企业就会发现，很多时候，企业的数据都是加密的，我们拿到的数据没办法使用Hive自带的函数去解决，我们就需要自己去定义函数去查看，哈哈，然而企业一般不会将解密的代码给你的，只需要会用，但是我们也需要知道怎么去实现。 1、打开编译器，我使用的myEclipse, 在maven项目中添加依赖 < 阅读全文

posted @ 2019-12-23 22:01 Xiaohu_BigData 阅读(584) 评论(0) 推荐(0)

Week08_day01 (Hive开窗函数 row_number()的使用（求出所有薪水前两名的部门）)

摘要：数据准备： 7369,SMITH,CLERK,7902,1980-12-17,800,null,20 7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30 7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30 7566 阅读全文

posted @ 2019-12-23 20:54 Xiaohu_BigData 阅读(568) 评论(0) 推荐(0)

Week08_day01 (Hive实现按照指定格式输出每七天的消费平均数)

摘要：Hive实现按照指定格式输出每七天的消费平均数数据准备 2018/6/1,10 2018/6/2,11 2018/6/3,11 2018/6/4,12 2018/6/5,14 2018/6/6,15 2018/6/7,13 2018/6/8,37 2018/6/9,18 2018/6/10,19 阅读全文

posted @ 2019-12-23 20:15 Xiaohu_BigData 阅读(1828) 评论(1) 推荐(2)

Week08_day01 (Hive实现WordCount计数)

摘要：Hive实现WordCount计数在没学习Hive之前，我们学习MapReduce去实现WordCount计数的时候，就要去编写80多行的java代码，现在我们学习了Hive，我们只需要一行Sql语句就可以实现。准备数据在hive中创建表使用本地导入的命令进行导入数据 select 查看一下阅读全文

posted @ 2019-12-23 19:44 Xiaohu_BigData 阅读(490) 评论(0) 推荐(0)

SQL中 count(*)和count(1)的对比，区别

摘要：执行效果： 1. count(1) and count(*) 当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count(*)用时多了！从执行计划来看，count(1)和count(*)的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以阅读全文

posted @ 2019-12-22 22:40 Xiaohu_BigData 阅读(6371) 评论(0) 推荐(0)

大数据之路week07--day07 （修改mysql默认编码）

摘要：在Sqoop导入或者导出，我们在查看mysql的时候会出现中文乱码大部分乱码会是？这样的问号，那么该怎么处理呢？ 1、打开my.cnf文件 vim /etc/my.cnf 2、找到对应需要修改的地方共3个地方，[client] [mysqld] [mysql]找到对应的位置，加入以下配置[mysq 阅读全文

posted @ 2019-12-22 19:35 Xiaohu_BigData 阅读(243) 评论(0) 推荐(0)

大数据之路week07--day07 （Hive结构设计以及Hive语法）

摘要：Hive架构流程（十分重要，结合图进行记忆理解）当客户端提交请求，它先提交到Driver,Driver拿到这个请求后,先把表明，字段名拿出来，去数据库进行元数据验证，也就是Metasore，如果有，返回有，Driver再返回给Complier编译器，进行HQL解析到MR任务的转化过程，执行完之后提交阅读全文

posted @ 2019-12-22 19:26 Xiaohu_BigData 阅读(506) 评论(0) 推荐(0)

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

摘要：我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。所以，sqoop提供了增量导入的方法。 1、数据准备： 2、将其先用全量导入到HDFS中去 3、先在my 阅读全文

posted @ 2019-12-22 14:00 Xiaohu_BigData 阅读(528) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 在从HDFS中导出到关系型数据库时的一些问题）

摘要：问题一：在上传过程中遇到这种问题： ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOException: No columns to generate for ClassWriter 解决方式阅读全文

posted @ 2019-12-21 21:50 Xiaohu_BigData 阅读(807) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 的使用）

摘要：Sqoop的使用一（将数据库中的表数据上传到HDFS）首先我们先准备数据 1、没有主键的数据（下面介绍有主键和没有主键的使用区别） -- MySQL dump 10.13 Distrib 5.1.73, for redhat-linux-gnu (x86_64) -- -- Host: local 阅读全文

posted @ 2019-12-21 21:35 Xiaohu_BigData 阅读(495) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 的安装及配置）

摘要：Sqoop 的安装配置比较简单。提供安装需要的安装包和连接mysql的驱动的百度云链接：链接：https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码：62vt 1、下载后将两个都拖到自己安装Hive的节点上去，因为我们后面配置文件中会去配置这些，在阅读全文

posted @ 2019-12-21 21:18 Xiaohu_BigData 阅读(285) 评论(0) 推荐(0)

大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）

摘要：为了方便后面的学习，在学习Hive的过程中先学习一个工具，那就是Sqoop，你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了。 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）阅读全文

posted @ 2019-12-21 21:05 Xiaohu_BigData 阅读(515) 评论(0) 推荐(0)

大数据之路week07--day05 （Hive的搭建部署）

摘要：在之前博客中我有记录安装JDK和Hadoop和Mysql的过程，如果还没有安装，请先进行安装配置好，对应的随笔我也提供了百度云下载连接。安装JDK: https://www.cnblogs.com/wyh-study/p/12014368.html 安装Hadoop https://www.cnb 阅读全文

posted @ 2019-12-20 20:20 Xiaohu_BigData 阅读(727) 评论(0) 推荐(0)

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）

摘要：什么是Hive？我来一个短而精悍的总结（面试常问） 1:hive是基于hadoop的数据仓库建模工具之一（后面还有TEZ，Spark）。 2:hive可以使用类sql方言，对存储在hdfs上的数据进行分析和管理。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用阅读全文

posted @ 2019-12-20 19:46 Xiaohu_BigData 阅读(1226) 评论(0) 推荐(0)

大数据之路week07--day04 （Linux 中查看文件内容的关键字处）

摘要：Linux如何对文件内容中的关键字进行查找如果是用vi打开文件后，在命令行下输入“/关键字” 如果是在没有打开文件的前提就用"cat 文件名 | grep "关键字"" 例如： cat 123.txt |grep dashuju 全部的都会列出来 shift+Z+Z 快速退出文件编辑不保存阅读全文

posted @ 2019-12-20 00:04 Xiaohu_BigData 阅读(212) 评论(0) 推荐(0)

Xiaohu_BigData

随笔分类 - 大数据之路

公告