06 2020 档案
网站流量分析
摘要:点击流数据 点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分 基本上所有的大型网站都有日志埋点 通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等 埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算 数据全部在日志服务器 分析 阅读全文
posted @ 2020-06-18 17:42 hatcher_h 阅读(408) 评论(0) 推荐(0)
sqoop
摘要:简介 apache开源提供的一个数据导入导出的工具,从关系型数据库导入到hdfs,或者从hdfs导出到关系型数据库等等 从关系型数据库到hdfs 叫做导入 从hdfs到关系型数据库 叫做导出 通过MR的inputformat和outputformat来实现数据的输入与输出,底层执行的全部都是MR的任 阅读全文
posted @ 2020-06-17 15:54 hatcher_h 阅读(131) 评论(0) 推荐(0)
flume
摘要:概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 模型 a)Source:采集组件,用于跟数据源对接,以获取数据 b)Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel:传输通道组件,用于从source将数据传递到sink 阅读全文
posted @ 2020-06-07 19:32 hatcher_h 阅读(171) 评论(0) 推荐(0)
hive调优
摘要:1、 feach 不走mr 能够不适用mr的时候尽量不适用mr。 hive.feach.task.conversion 的配置有none、minimal、more。 hive的默认配置是more. 设置为more后,下面hql都不执行mr. select * from xxx; select a f 阅读全文
posted @ 2020-06-04 10:41 hatcher_h 阅读(179) 评论(0) 推荐(0)
hive相关操作
摘要:建库 创建一个hive数据库,在hdfs中就会创建一个文件夹 创建库 create database 库名; 查看库相关信息 desc database 库名; 查看库详细信息 desc database extended 库名; 建表 CREATE [EXTERNAL] TABLE [IF NOT 阅读全文
posted @ 2020-06-02 21:00 hatcher_h 阅读(159) 评论(0) 推荐(0)
hive基础
摘要:数据仓库 数据仓库简称DW,用来存储数据。数据仓库不涉及事务操作。 目的 构建面向分析的集成化环境,主要对数据仓库的数据进行分析 特征 1、面向主题:数据分析需要一定的范围,需要选取一定的主题 2、集成:集成相关联的数据。数据仓库里面的数据是经过清洗的 3、非易失性:数据仓库的数据基本上是过去的数据 阅读全文
posted @ 2020-06-01 16:51 hatcher_h 阅读(175) 评论(0) 推荐(0)