Hadoop02 - 随笔分类(第2页) - lilixia

flume 文档简介

摘要：1. Flume介绍 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 1.2.1 日志收集 Flume最早是阅读全文

posted @ 2019-05-15 07:48 lilixia 阅读(515) 评论(0) 推荐(0)

flume---2中channel file和memory

摘要：//之前一直用的是memory缓存 channels通道类型为文件形式 [root@linux05 conf]# vim filechannel.conf [root@linux05 conf]# flume-ng agent -c . -f filechannel.conf -n a1 -Dflu 阅读全文

posted @ 2019-05-15 07:47 lilixia 阅读(712) 评论(0) 推荐(0)

flume-----发送 sink 2种本地和hdfs

摘要：[root@linux05 conf]# vim hdfssink.conf //从缓存拿出来直接到hdfs 中 ****************************************** a1.sources=r1a1.channels=c1a1.sinks=k1 a1.sources 阅读全文

posted @ 2019-05-15 07:47 lilixia 阅读(904) 评论(0) 推荐(0)

flume--安装及5种采集 sources

摘要：flume常用命令 //复制文件 cp exec.conf tcp.conf flume-ng agent -c . -f avro.conf -n a1 -Dflume.root.logger=info,console flume-ng avro-client -c . -H linux05 - 阅读全文

posted @ 2019-05-14 21:43 lilixia 阅读(702) 评论(0) 推荐(0)

自定义函数

摘要：add jar /root/Downloads/apache-hive-1.2.0-bin/lib/udf.jar; 1.引jar 写自己想用的方法 2.将jar 放入hive中的lib下 3.创建一个临时的方法 create temporary function allsal as "com.bw 阅读全文

posted @ 2019-05-14 16:24 lilixia 阅读(179) 评论(0) 推荐(0)

内置函数

摘要：hive> select pmod(sal,2) from emp; //创建表人名分数 hive> create table sc(name string,scores Array<int>) row format delimited fields terminated by " " coll 阅读全文

posted @ 2019-05-14 15:36 lilixia 阅读(170) 评论(0) 推荐(0)

炸裂函数explode

摘要：lateral viem 表的关联只能和explode使用 hive> select explode(info) from t_map where id=1; 1 CN_lldd2 CN_sjd3 CN_jp4 CN_rpt5 USA_yns6 USA_sd7 USA_ydfdf8 USA_gdff 阅读全文

posted @ 2019-05-14 14:27 lilixia 阅读(2568) 评论(0) 推荐(0)

-bash:ls:command not found，执行命令总是报找不到

摘要：所有的命令都显示找不到了,原因是修改了/etc/profile造成的解决方法执行： export PATH=/bin:/usr/bin:$PATH 阅读全文

posted @ 2019-05-14 13:57 lilixia 阅读(1081) 评论(0) 推荐(0)

函数

摘要：1 zhangsan 1999-08-03 3000 2 zhangsan 2008-08-08 5000 3 lisi 2000-08-08 5000 4 zhangsan 2018-08-09 15000 5 lisi 2010-09-06 8000 6 lisi 2016-10-10 15000 7 lisi 2019-05-10 28000 阅读全文

posted @ 2019-05-13 21:11 lilixia 阅读(109) 评论(0) 推荐(0)

行间

摘要：阅读全文

posted @ 2019-05-13 20:40 lilixia 阅读(138) 评论(0) 推荐(0)

复杂的数据类型

摘要：//多种数据类型阅读全文

posted @ 2019-05-13 19:53 lilixia 阅读(357) 评论(0) 推荐(0)

索引

摘要：create index id_index on table t_cluster(id) as "org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler" with deferred rebuild; 阅读全文

posted @ 2019-05-13 19:10 lilixia 阅读(113) 评论(0) 推荐(0)

电影sql问题

摘要：看的次数多或者评分高每个用户最喜欢哪个类型的电影 row_number() ratings表中一个电影出现几次？一个电影有几种类型？类型在movies 评分或者观看次数ratings movies join ratings //将类型炸开 select mid,mname,lx from 阅读全文

posted @ 2019-05-13 16:50 lilixia 阅读(275) 评论(0) 推荐(0)

修改分割符

摘要：alter table store set SERDEPROPERTIES('field.delim'='\t'); 阅读全文

posted @ 2019-05-13 15:39 lilixia 阅读(140) 评论(0) 推荐(0)

users.txt

摘要：1,F,1,10,48067 2,M,56,16,70072 3,M,25,15,55117 4,M,45,7,02460 5,M,25,20,55455 6,F,50,9,55117 7,M,35,1,06810 8,M,25,12,11413 9,M,25,17,61614 10,F,35,1,95370 11,F,25,1,04093 12,M,25,12,32793 13,M,45,1,... 阅读全文

posted @ 2019-05-13 15:38 lilixia 阅读(2576) 评论(0) 推荐(0)

ratings.txt

摘要：1,1193,5,978300760 1,661,3,978302109 1,914,3,978301968 1,3408,4,978300275 1,2355,5,978824291 1,1197,3,978302268 1,1287,5,978302039 1,2804,5,978300719 1,594,4,978302268 1,919,4,978301368 1,595,5,97882... 阅读全文

posted @ 2019-05-13 15:37 lilixia 阅读(7492) 评论(0) 推荐(0)

movies.txt

摘要：上面数据有问题下面是经过清洗的数据阅读全文

posted @ 2019-05-13 15:36 lilixia 阅读(2319) 评论(0) 推荐(0)

电影表

摘要：age.txt job.txt 阅读全文

posted @ 2019-05-13 15:32 lilixia 阅读(809) 评论(0) 推荐(0)

分桶

摘要：阅读全文

posted @ 2019-05-12 08:46 lilixia 阅读(231) 评论(0) 推荐(0)

分区 partition

摘要：在关系型数据库中会存在一个一个的分区，那么这些分区主要是为了让我们在查询数据的时候减小压力阅读全文

posted @ 2019-05-11 21:21 lilixia 阅读(226) 评论(0) 推荐(0)

lilixia

随笔分类 - Hadoop02

公告