……

上一页 1 2 3 4 5 6 7 8 9 10 ··· 36 下一页
2021年1月20日
摘要: 第10章 业务知识准备 10.1 业务术语 用户 用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 新增用户 首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义 阅读全文
posted @ 2021-01-20 15:47 大码王 阅读(333) 评论(0) 推荐(0)
2021年1月19日
摘要: 第9章 数仓搭建之DWD层 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)。 9.1 DWD层启动表数据解析 9.1.1 创建启动表 1)建表语句 drop table if exists dwd_start_log;CREATE EXTERNAL T 阅读全文
posted @ 2021-01-19 18:16 大码王 阅读(227) 评论(0) 推荐(0)
摘要: 第6章 数仓分层概念 6.1 为什么要分层 6.2 数仓分层 6.3 数据集市与数据仓库概念 6.4 数仓命名规范 ODS层命名为ods DWD层命名为dwd DWS层命名为dws ADS层命名为ads 临时表数据库命名为xxx_tmp 备份数据数据库命名为xxx_bak 第7章 数仓搭建环境准备 阅读全文
posted @ 2021-01-19 09:11 大码王 阅读(352) 评论(0) 推荐(0)
2021年1月15日
摘要: 第5章 总结 5.1 数仓概念总结 1)数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据。 输出系统:报表系统、用户画像系统、推荐系统 5.2 项目需求及架构总结 5.2.1 集群规模计算 5.2.2 框架版本选型 1)Apache:运维麻 阅读全文
posted @ 2021-01-15 17:22 大码王 阅读(292) 评论(0) 推荐(0)
2021年1月14日
摘要: 4.5 Kafka安装 4.5.1 Kafka集群安装 集群规划: 4.5.2 Kafka集群启动停止脚本 1)在/home/kgg/bin目录下创建脚本kf.sh [kgg@hadoop101 bin]$ vim kf.sh 在脚本中填写如下内容 #! /bin/bash​case $1 in"s 阅读全文
posted @ 2021-01-14 12:02 大码王 阅读(294) 评论(0) 推荐(0)
2021年1月13日
摘要: 4.4 采集日志Flume 4.4.1 日志采集Flume安装 集群规划: 4.4.2 项目经验之Flume组件 1)Source (1)Taildir Source相比Exec Source、Spooling Directory Source的优势 TailDir Source:断点续传、多目录。 阅读全文
posted @ 2021-01-13 16:29 大码王 阅读(363) 评论(0) 推荐(0)
摘要: 第4章 数据采集模块 4.1 Hadoop安装 1)集群规划: 注意:尽量使用离线方式安装 4.1.1 项目经验之HDFS存储多目录 若HDFS存储空间紧张,需要对DataNode进行磁盘扩展。 1)在DataNode节点增加磁盘并进行挂载。 2)在hdfs-site.xml文件中配置多目录,注意新 阅读全文
posted @ 2021-01-13 16:18 大码王 阅读(349) 评论(0) 推荐(0)
摘要: 第1章 数据仓库概念 第2章 项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 集群资源规划设计 2)测试集群服务器规划 第3章 数据生成模块 3.1 埋点数据基本格式 公共字 阅读全文
posted @ 2021-01-13 15:58 大码王 阅读(295) 评论(0) 推荐(0)
摘要: 2.4 关系建模与维度建模关系模型关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关 阅读全文
posted @ 2021-01-13 15:04 大码王 阅读(403) 评论(0) 推荐(0)
摘要: 第1章 电商业务与数据结构简介1.1 电商业务流程 1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位 阅读全文
posted @ 2021-01-13 14:46 大码王 阅读(474) 评论(0) 推荐(0)
2020年12月15日
摘要: pytorch这两年越来越流行,定义网络结构简单,而且还很直观灵活,数据加载快。 一、安装 登陆pytorch官网。 选择合适的环境: 运行安装命令: pip3 install https://download.pytorch.org/whl/cpu/torch-1.1.0-cp36-cp36m-w 阅读全文
posted @ 2020-12-15 10:22 大码王 阅读(529) 评论(0) 推荐(0)
2020年12月11日
摘要: 0. 前言 在计算机领域学习,最烦的一件事,就是安装软件,环境配置。而且,恰恰不如意的是,它还是你学习进程的第一关。第一关就出现大Boss。这样,超级容易打击学习的动力。 所以,在我看来,入门的话,一定要快,要不求甚解,先把握整体。所以,我的教程安排顺序和一些方法,不同于其他千篇一律的教程,其中也许 阅读全文
posted @ 2020-12-11 16:26 大码王 阅读(699) 评论(0) 推荐(0)
2020年12月9日
摘要: 一 什么是数据仓库 1.1 数据仓库概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 1.2 数据仓库特点 1.2.1面向主题 普通的操作型数据库主要面向事务 阅读全文
posted @ 2020-12-09 11:03 大码王 阅读(1635) 评论(2) 推荐(0)
2020年12月7日
摘要: 1、冒泡排序 # 冒泡排序 def bubbleSort(arr): for i in range(1, len(arr)): for j in range(0, len(arr) - i): if arr[j] > arr[j + 1]: arr[j], arr[j + 1] = arr[j + 阅读全文
posted @ 2020-12-07 15:53 大码王 阅读(202) 评论(0) 推荐(0)
2020年12月2日
摘要: 1、Python MySQL - mysql-connector 驱动 1、安装mysql驱动 python -m pip install mysql-connector 2、测试驱动 import mysql.connector 3、代码实现 1、基本操作 import mysql.connect 阅读全文
posted @ 2020-12-02 15:31 大码王 阅读(207) 评论(0) 推荐(0)
摘要: 1、Python3 日期和时间 Python 程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能。 Python 提供了一个 time 和 calendar 模块可以用于格式化日期和时间。 时间间隔是以秒为单位的浮点小数。 每个时间戳都以自从 1970 年 1 月 1 日午夜(历元)经过了 阅读全文
posted @ 2020-12-02 12:07 大码王 阅读(204) 评论(0) 推荐(0)
2020年12月1日
摘要: 一、什么是设计模式 设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。 毫无疑问,设计模式于己于他人于系统都是多赢的,设计模式使代码编制真正工程化,设计模式是软件工程的基石 阅读全文
posted @ 2020-12-01 10:01 大码王 阅读(348) 评论(0) 推荐(0)
2020年11月26日
摘要: 1、Python3 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符 阅读全文
posted @ 2020-11-26 18:31 大码王 阅读(259) 评论(0) 推荐(0)
2020年11月25日
摘要: 1、Python3 面向对象 1.面向对象技术简介 类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。 方法:类中定义的函数。 类变量:类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量 阅读全文
posted @ 2020-11-25 18:22 大码王 阅读(245) 评论(0) 推荐(0)
2020年11月17日
摘要: 常见分类模型与算法 距离判别法,即最近邻算法KNN; 贝叶斯分类器; 线性判别法,即逻辑回归算法; 决策树; 支持向量机; 神经网络; 1. KNN分类算法原理及应用 1.1 KNN概述 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 KNN算法的指导思想是 阅读全文
posted @ 2020-11-17 15:43 大码王 阅读(879) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 36 下一页
复制代码