随笔档案「2020年6月」 - hatcher_h

网站流量分析

摘要：点击流数据点击流数据：关注的是用户访问网站的轨迹，按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式，可以获取到你再网站上面点击的所有的链接，按钮，商品，等等，包括你访问的url的链接等等埋点收集的数据，都发送到日志服务器一条日志大概1Kb来算数据全部在日志服务器分析阅读全文

posted @ 2020-06-18 17:42 hatcher_h 阅读(408) 评论(0) 推荐(0)

sqoop

摘要：简介 apache开源提供的一个数据导入导出的工具，从关系型数据库导入到hdfs，或者从hdfs导出到关系型数据库等等从关系型数据库到hdfs 叫做导入从hdfs到关系型数据库叫做导出通过MR的inputformat和outputformat来实现数据的输入与输出，底层执行的全部都是MR的任阅读全文

posted @ 2020-06-17 15:54 hatcher_h 阅读(131) 评论(0) 推荐(0)

flume

摘要：概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。模型 a)Source：采集组件，用于跟数据源对接，以获取数据 b)Sink：下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel：传输通道组件，用于从source将数据传递到sink 阅读全文

posted @ 2020-06-07 19:32 hatcher_h 阅读(171) 评论(0) 推荐(0)

hive调优

摘要：1、 feach 不走mr 能够不适用mr的时候尽量不适用mr。 hive.feach.task.conversion 的配置有none、minimal、more。 hive的默认配置是more. 设置为more后,下面hql都不执行mr. select * from xxx; select a f 阅读全文

posted @ 2020-06-04 10:41 hatcher_h 阅读(179) 评论(0) 推荐(0)

hive相关操作

摘要：建库创建一个hive数据库，在hdfs中就会创建一个文件夹创建库 create database 库名；查看库相关信息 desc database 库名; 查看库详细信息 desc database extended 库名; 建表 CREATE [EXTERNAL] TABLE [IF NOT 阅读全文

posted @ 2020-06-02 21:00 hatcher_h 阅读(159) 评论(0) 推荐(0)

hive基础

摘要：数据仓库数据仓库简称DW,用来存储数据。数据仓库不涉及事务操作。目的构建面向分析的集成化环境，主要对数据仓库的数据进行分析特征 1、面向主题：数据分析需要一定的范围，需要选取一定的主题 2、集成：集成相关联的数据。数据仓库里面的数据是经过清洗的 3、非易失性：数据仓库的数据基本上是过去的数据阅读全文

posted @ 2020-06-01 16:51 hatcher_h 阅读(175) 评论(0) 推荐(0)

公告