上一页 1 2 3 4 5 6 7 8 9 ··· 69 下一页

2022年4月17日

|NO.Z.00020|——————————|Deployment|——|Hadoop&PB级离线数仓.v02|——|Atlas.v02|Hive血缘关系导入|

摘要: 一、Hive血缘关系导入 ### 配置HIVE_HOME环境变量; ~~~ 将atlas服务下atlas-application.properties配置文件拷贝到hive服务目录下 ~~~ # 创建软连接: ~~~ 将 $ATLAS_HOME/conf/atlasapplication.prope 阅读全文

posted @ 2022-04-17 15:40 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00018|——————————|Deployment|——|Hadoop&PB级离线数仓.v05|——|Airflow.v05|Airflow入门案例HelloWorld|

摘要: 一、Airflow核心概念 ### Airflow核心概念 ~~~ DAGs:有向无环图(Directed Acyclic Graph),将所有需要运行的tasks按照依赖关系组织起来, ~~~ 描述的是所有tasks执行的顺序; ### Operators:Airflow内置了很多operator 阅读全文

posted @ 2022-04-17 15:39 yanqi_vip 阅读(62) 评论(0) 推荐(0)

|NO.Z.00017|——————————|Deployment|——|Hadoop&PB级离线数仓.v04|——|Airflow.v04|crontab简介及案例|

摘要: 一、crontab ### Crontab简介 ~~~ Linux 系统则是由 cron (crond) 这个系统服务来控制的。 ~~~ Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。 ~~~ Linux 系统也提供了Linux用户控制计划任务的命令:crontab 阅读全文

posted @ 2022-04-17 15:39 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00016|——————————|Deployment|——|Hadoop&PB级离线数仓.v03|——|Airflow.v03|禁用默认的DAG任务|

摘要: 一、Airflow.UI界面概述 ### Airflow.UI界面概述 ~~~ Trigger Dag:人为执行触发 ~~~ Tree View:当dag执行的时候,可以点入,查看每个task的执行状态(基于树状视图)。 ~~~ 状态:success、running、failed、skipped、r 阅读全文

posted @ 2022-04-17 15:38 yanqi_vip 阅读(60) 评论(0) 推荐(0)

|NO.Z.00014|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|Airflow.v01|安装部署|

摘要: 一、Airflow安装部署 ### 安装依赖 ~~~ CentOS 7.X ~~~ Python 3.5或以上版本(推荐) ~~~ MySQL 5.7.x ~~~ Apache-Airflow 1.10.11 ~~~ 虚拟机可上网,需在线安装包 ~~~ # 备注:后面要安装的三个软件Airflow、 阅读全文

posted @ 2022-04-17 15:37 yanqi_vip 阅读(59) 评论(0) 推荐(0)

|NO.Z.00015|——————————|Deployment|——|Hadoop&PB级离线数仓.v02|——|Airflow.v02|修改默认时区|

摘要: 一、修改时区 ### 修改时区 ~~~ Airflow默认使用UTC时间,在中国时区需要用+8小时。 ~~~ 将UTC修改为中国时区,需要修改Airflow源码。 ### 在修改 $AIRFLOW_HOME/airflow.cfg 文件 (env) [root@hadoop02 ~]# vim /o 阅读全文

posted @ 2022-04-17 15:37 yanqi_vip 阅读(242) 评论(0) 推荐(0)

|NO.Z.00012|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|DataX.v01|部署安装|应用案例|

摘要: 一、DataX概述及安装 ### DataX概述 ~~~ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台, ~~~ 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、 ~~~ MaxComp 阅读全文

posted @ 2022-04-17 15:36 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00013|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|Hive on Tez.v01|Hive on Tez|部署安装|

摘要: 一、Hive on Tez概述 ### Hive on Tez ~~~ Hortonworks在2014年左右发布了Stinger Initiative, ~~~ 并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。 ~~~ 让Hive的查询功能更强大。增加类似OVER子句的分析功能, 阅读全文

posted @ 2022-04-17 15:36 yanqi_vip 阅读(79) 评论(0) 推荐(0)

|NO.Z.00009|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|Hive.v01|安装配置|

摘要: 一、Hive安装配置 ### 环境准备 ~~~ Hive官网:http://hive.apache.org ~~~ 下载网址:http://archive.apache.org/dist/hive/ ~~~ 文档网址:https://cwiki.apache.org/confluence/displ 阅读全文

posted @ 2022-04-17 15:35 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00010|——————————|Deployment|——|Hadoop&PB级离线数仓.v02|——|Hive.v02|HiveServer2安装配置|

摘要: 一、metastore远程模式配置规划: 节点 metastore client Hadoop01 √ Hadoop02 √ Hadoop05 √ 二、配置并启动HiveServer服务 ### 将Hadoop02 的 hive 安装文件拷贝到Hadoop01、Hadoop05并配置 [root@h 阅读全文

posted @ 2022-04-17 15:35 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00011|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|Flume.v01|Flume.v1.9安装配置|

摘要: 一、安装部署Flume ### 安装部署 ~~~ Flume官网地址:http://flume.apache.org/ ~~~ 文档查看地址:http://flume.apache.org/FlumeUserGuide.html ~~~ 下载地址:http://archive.apache.org/ 阅读全文

posted @ 2022-04-17 15:35 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00008|——————————|Deployment|——|Hadoop&PB级离线数仓.v08|——|Hadoop.v08|历史日志服务配置|

摘要: 一、配置历史服务器 ### 在Yarn中运行的任务产生的日志数据不能查看, ~~~ 为了查看程序的历史运行情况,需要配置一下历史日志服务器。具体配置步骤如下: ### 配置mapred-site.xml [root@hadoop01 ~]# vim /opt/yanqi/servers/hadoop 阅读全文

posted @ 2022-04-17 15:34 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00006|——————————|Deployment|——|Hadoop&PB级离线数仓.v06|——|Hadoop.v06|集群启动|单节点启动|

摘要: 一、启动HDFS集群 ### 启动集群注意事项 ~~~ # 注意:如果集群是第一次启动,需要在Namenode所在节点格式化NameNode, ~~~ # 非第一次不用执行格式化Namenode操作!! 二、单节点启动:格式化NameNode ### 单节点启动 ~~~ # 所有节点执行 [root 阅读全文

posted @ 2022-04-17 15:33 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00007|——————————|Deployment|——|Hadoop&PB级离线数仓.v07|——|Hadoop.v07|集群测试|

摘要: 一、集群测试 ### HDFS 分布式存储初体验 ~~~ # 从linux本地文件系统上传下载文件验证HDFS集群工作正常 ~~~ HDFS访问地址:http://hadoop01:50070/ ~~~ # 本地hoome目录创建一个文件 [root@hadoop01 ~]# vim test.tx 阅读全文

posted @ 2022-04-17 15:33 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00005|——————————|Deployment|——|Hadoop&PB级离线数仓.v05|——|Hadoop.v05|rsync-script脚本编写|

摘要: 一、分发配置:rsync-script命令详解 ### 编写集群分发脚本rsync-script ~~~ # rsync 远程同步工具 ~~~ rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 ~~~ rsync和scp区别:用rsync做文件的复制要比scp的速度快 阅读全文

posted @ 2022-04-17 15:32 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00003|——————————|Deployment|——|Hadoop&PB级离线数仓.v03|——|Hadoop.v03|环境变量配置|

摘要: 一、集群规划 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5 NameNode √ SecondaryNameNode √ DataNode √ √ √ √ √ ResourceManager √ DataManager √ √ √ √ √ Hive √ √ √ Hi 阅读全文

posted @ 2022-04-17 15:31 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00004|——————————|Deployment|——|Hadoop&PB级离线数仓.v04|——|Hadoop.v04|集群组件部署|

摘要: 一、集群配置 ### Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置 ~~~ # HDFS集群配置 ~~~ 将JDK路径明确配置给HDFS(修改hadoop-env.sh) ~~~ 指定NameNode节点以及数据存储目录(修改core-site.x 阅读全文

posted @ 2022-04-17 15:31 yanqi_vip 阅读(75) 评论(0) 推荐(0)

|NO.Z.00002|——————————|Deployment|——|Hadoop&PB级离线数仓.v02|——|Hadoop.v02|虚拟机环境准备|

摘要: 一、Apache Hadoop 完全分布式集群搭建 ### 软件和操作系统版本 ~~~ Hadoop框架是采用Java语言编写,需要java环境(jvm) ~~~ JDK版本:JDK8版本 ### 集群: ~~~ 知识点学习:统一使用vmware虚拟机虚拟五台linux节点,linux操作系统:Ce 阅读全文

posted @ 2022-04-17 15:30 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00000|——————————|Deployment|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-17 15:29 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00001|——————————|Deployment|——|Hadoop&PB级离线数仓.v01|——|Hadoop.v01|基础环境配置|

摘要: 一、配置环境规划 ### vmware、linux版本 ~~~ vmware版本:VMware-workstation-full-15.5.5-16285975.exe ~~~ Linux版本:CentOS-7-x86_64-DVD-1810.iso ### Linux主机配置参数 ~~~ CPU: 阅读全文

posted @ 2022-04-17 15:29 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.R.10000|——————————|Navigation|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-17 15:28 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.R.00001|——————————|Navigation|————|PB级企业电商离线数仓|——|服务启动导航|

摘要: 一、PB级别企业电商离线仓库:部署规划 IP地址 主机名 第一台机器 192.168.1.121 Hadoop01 第二台机器 192.168.1.122 Hadoop02 第三台机器 192.168.1.123 Hadoop03 第四台机器 192.168.1.124 Hadoop04 第五台机器 阅读全文

posted @ 2022-04-17 15:27 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.R.00000|——————————|Navigation|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-17 15:26 yanqi_vip 阅读(10) 评论(0) 推荐(0)

2022年4月16日

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-16 14:54 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-16 14:53 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&Python.v07|——|Arithmetic.v07|Matplotlib数据可视化:Matplotlib3D图形|

摘要: 一、3D图形:三维折线图散点图 import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d.axes3d import Axes3D # 3D引擎 x = np.linspace(0,60,300) y = 阅读全文

posted @ 2022-04-16 14:53 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&Python.v05|——|Arithmetic.v05|Matplotlib数据可视化:Matplotlib文本注释箭头|

摘要: 一、文本、注释、箭头:常用函数如下: Pyplot函数 API方法 描述 text() mpl.axes.Axes.text() 在Axes对象的任意位置添加文字 xlabel() mpl.axes.Axes.set_xlabel() 为X轴添加标签 ylabel() mpl.axes.Axes.s 阅读全文

posted @ 2022-04-16 14:52 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&Python.v06|——|Arithmetic.v06|Matplotlib数据可视化:Matplotlib常用视图|

摘要: 一、常用视图:折线图 import numpy as np import matplotlib.pyplot as plt x = np.random.randint(0,10,size = 15) # 一图多线 plt.figure(figsize=(9,6)) plt.plot(x,marker 阅读全文

posted @ 2022-04-16 14:52 yanqi_vip 阅读(56) 评论(0) 推荐(0)

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Python.v03|——|Arithmetic.v03|Matplotlib数据可视化:Matplotlib风格样式|

摘要: 一、风格和样式:颜色、线形、点形、线宽、透明度 import numpy as np import matplotlib.pyplot as plt x = np.linspace(0,2*np.pi,20) y1 = np.sin(x) y2 = np.cos(x) # 设置颜色,线型,点型 pl 阅读全文

posted @ 2022-04-16 14:51 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&Python.v04|——|Arithmetic.v04|Matplotlib数据可视化:Matplotlib多图布局|

摘要: 一、多图布局:子视图 import numpy as np import matplotlib.pyplot as plt x = np.linspace(-np.pi,np.pi,50) y = np.sin(x) # 子视图1 plt.figure(figsize=(9,6)) ax = plt 阅读全文

posted @ 2022-04-16 14:51 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00054|——————————|^^ 配置 ^^|——|Hadoop&Python.v01|——|Arithmetic.v01|Matplotlib数据可视化:Matplotlib模块安装|

摘要: 一、Matplotlib模块安装 ### 在windows.dos下安装Matplotlib C:\Users\Administrator>pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple ~~~输出参数 Installin 阅读全文

posted @ 2022-04-16 14:50 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00055|——————————|BigDataEnd|——|Hadoop&Python.v02|——|Arithmetic.v02|Matplotlib数据可视化:Matplotlib基础知识|

摘要: 一、Matplotlib数据可视化 ### Matplotlib数据可视化 ~~~ pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple ~~~ 在数据分析与机器学习中,我们经常要用到大量的可视化操作。 ~~~ 一张制作 阅读全文

posted @ 2022-04-16 14:50 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-16 14:49 yanqi_vip 阅读(7) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——|Hadoop&Python.v16|——|Arithmetic.v16|Pandas数据分析库:JAVA_BBS数据分析师招聘数据分析|]

摘要: 一、实战-JAVA_BBS数据分析师招聘数据分析 ### 实战-JAVA_BBS数据分析师招聘数据分析 ~~~ 分析⽬标 ~~~ 各城市对数据分析岗位的需求情况 ~~~ 不同细分领域对数据分析岗的需求情况 ~~~ 数据分析岗位的薪资状况 ~~~ ⼯作经验与薪⽔的关系 ~~~ 公司都要求什么掌握什么技 阅读全文

posted @ 2022-04-16 14:48 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——|Hadoop&Python.v14|——|Arithmetic.v14|Pandas数据分析库:Pandas时间序列|

摘要: 一、时间序列 ### 时间戳操作 ~~~ # 创建⽅法 pd.Timestamp('2020-8-24 12') # 时刻数据 pd.Period('2020-8-24',freq = 'M') # 时期数据 index = pd.date_range('2020.08.24',periods=5, 阅读全文

posted @ 2022-04-16 14:47 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——|Hadoop&Python.v15|——|Arithmetic.v15|Pandas数据分析库:Pandas数据可视化|

摘要: 一、数据可视化 ### 数据可视化 ~~~ pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple import numpy as np import pandas as pd ~~~ # 1、线形图 df1 = pd.D 阅读全文

posted @ 2022-04-16 14:47 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Python.v12|——|Arithmetic.v12|Pandas数据分析库:Pandas分箱操作|

摘要: 一、分箱操作 ### 分箱操作 ~~~ # 分箱操作就是将连续数据转换为分类对应物的过程。⽐如将连续的身⾼数据划分为:矮中⾼。 ~~~ # 分箱操作分为等距分箱和等频分箱。 ~~~ # 分箱操作也叫⾯元划分或者离散化。 import numpy as np import pandas as pd d 阅读全文

posted @ 2022-04-16 14:46 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Python.v13|——|Arithmetic.v13|Pandas数据分析库:Pandas分组聚合|

摘要: 一、分组聚合 ### 分组聚合 import numpy as np import pandas as pd ~~~ # 准备数据 df = pd.DataFrame(data = {'sex':np.random.randint(0,2,size = 300), # 0男,1⼥ 'class':n 阅读全文

posted @ 2022-04-16 14:46 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Python.v10|——|Arithmetic.v10|Pandas数据分析库:Pandas简单统计指标|

摘要: 一、数学和统计⽅法:简单统计指标 ### 数学和统计⽅法 ~~~ # pandas对象拥有⼀组常⽤的数学和统计⽅法。它们属于汇总统计,对Series汇总计算获取mean、max ~~~ # 值或者对DataFrame⾏、列汇总计算返回⼀个Series。 ~~~ # 简单统计指标 import num 阅读全文

posted @ 2022-04-16 14:45 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Python.v11|——|Arithmetic.v11|Pandas数据分析库:Pandas数据排序|

摘要: 一、数据排序 ### 数据排序 import numpy as np import pandas as pd df = pd.DataFrame(data = np.random.randint(0,30,size = (30,3)), index = list('qwertyuioijhgfcas 阅读全文

posted @ 2022-04-16 14:45 yanqi_vip 阅读(16) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 8 9 ··· 69 下一页

导航