Fork me on GitHub

07 2020 档案

摘要:组件版本 jdk-8u261-linux-x64 centOS 7.6 Cloudera Manager: 6.2.1 CDH: 6.2.1 Hadoop:3.0.0-cdh6.2.1 HBase:2.1.0-cdh6.2.1 Hive:2.1.1-cdh6.2.1 Kafka:2.1.1-cdh6 阅读全文
posted @ 2020-07-28 22:45 园狐 阅读(4116) 评论(3) 推荐(1)
摘要:集群Linux环境搭建 组件版本 centOS 7.6 jdk 1.8 zookeeper 3.4.9 Hadoop 2.7.5 mysql 驱动 mysql-connector-java-5.1.38.jar hive 2.1.1 sqoop kafka2.11 Hbase1.4.9 Sqoop1 阅读全文
posted @ 2020-07-28 22:05 园狐 阅读(415) 评论(0) 推荐(0)
摘要:大数据架构 源数据层(原始数据存储位置) sdk日志埋点 日志文件:爬虫日志、业务日志 关系型数据库:mysql,oracle等 数据采集层(抽取源数据至数据存储层) 离线:flume、Sqoop、Nifi 实时:filebeat、nginx+lua 补充:当数据量达到5亿左右的时候,filebea 阅读全文
posted @ 2020-07-28 17:48 园狐 阅读(952) 评论(0) 推荐(0)
摘要:Kudu 的应用场景是什么? 设计一个项目,分析其特点,设计方案,选取最佳处理方案 需求:做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析 项目特点 1. 数据量大 - 有一个非常重大的挑战, 就是这些设备可能很多, 其所产生的事件记录可能也很大, 所以需要对设备进行数据收集和分析的话, 阅读全文
posted @ 2020-07-28 16:28 园狐 阅读(420) 评论(0) 推荐(0)
摘要:集群搭建及工具使用 身为大数据开发工程师,对数据从采集、接入、流处理、批处理到数据存储、数据分析和数据可视化等一整套流程都要了解,包括的组件非常多。 做数据流处理需要掌握spark、flink、storm、kafka stream等。 做批处理需要掌握hadoop、hive等,数据存储需要掌握hdf 阅读全文
posted @ 2020-07-28 11:15 园狐 阅读(414) 评论(0) 推荐(0)
摘要:| https://www.lagou.com/jobs/list_java%E5%A4%A7%E6%95%B0%E6%8D%AE?oquery=%E5%A4%A7%E6%95%B0%E6%8D%AE&fromSearch=true&labelWords=relative 大数据分析师 关键词:新零 阅读全文
posted @ 2020-07-27 21:50 园狐 阅读(371) 评论(0) 推荐(0)
摘要:标题 #个数表示标题数(注意#后加空格) 这是一级标题 这是二级标题 列表 在文字前加 - 表示无序标题,在文字前加数字表示有序标题 无序1 无序2 有序 有序2 引用 文字前加上>并与文字间有一个空格,格式如下 这是引用文字 粗体和斜体 *一个表示斜体,**包围表示粗体 回合肥,回合肥 图片和链接 阅读全文
posted @ 2020-07-27 21:15 园狐 阅读(122) 评论(0) 推荐(0)
摘要:网站流量日志分析-01 网站流量日志分析的意义 通过分析用户的行为数据 让更多的用户沉淀下来变成会员 赚取更多的钱。 如何进行网站分析 流量分析 质量分析 在看重数量的同时 需要关注流量的质量 所谓的质量指的是流量所能带来产生的价值。 多维度细分 维度指的是分析的问题的角度 在不同的维度下 问题所展 阅读全文
posted @ 2020-07-27 20:23 园狐 阅读(449) 评论(0) 推荐(0)
摘要:SQL语句执行顺序 From 表连接 on连接条件,形成新的虚拟表 where 筛选条件 group by 生成新的结果集合 group by 分组列表 having 分组后筛选 select 选出显示的 order by 排序 limit 分页/个数限制 子查询顺序 除了exists,先执行子查询 阅读全文
posted @ 2020-07-27 15:18 园狐 阅读(214) 评论(0) 推荐(0)
摘要:1. HTTP状态码(常见) 什么是HTTP状态码(HTTP Status Code) 当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。 最常见的状态 阅读全文
posted @ 2020-07-27 14:55 园狐 阅读(157) 评论(0) 推荐(0)