随笔分类 - 大数据
摘要:1.1 熟悉8张表的业务字段,每张表记住3-5个字段 1.2 数仓理论 1)表的分类:实体表、维度表、事务型事实表、周期型事实表 实体表 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。 用户表: 用户id 姓名 生日 性别 邮箱 用户等级 创建时间 1 张三 2011-1
阅读全文
摘要:1 用户行为数仓业务总结 1.1 数仓分几层?每层做什么的? 1)ODS层(原始数据层) 存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 2)DWD层(明细层) 对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据) 3)DWS层(服务数据层) 以DWD层为基础,进行轻度汇总。
阅读全文
摘要:1.1 数仓概念总结 1)数据仓库的输入数据源和输出系统分别是什么? 输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据。 输出系统:报表系统、用户画像系统、推荐系统 1.2 项目需求及架构总结 1.2.1 集群规模计算 1.2.2 框架版本选型 1)Apache:运维麻烦,组件间兼容
阅读全文
摘要:1、下载安装包 下载地址:https://www.mongodb.com/try/download/community 注: MongoDB for Windows 64-bit 适合 64 位的 Windows Server 2008 R2, Windows 7 , 及最新版本的 Window 系
阅读全文
摘要:一、问题: 直接下载Levenshtein失败: 二、解决方法 第一步: pip install PyPi 第二步: pip install python-Levenshtein-wheels
阅读全文
摘要:一、pip和pycharm安装pyahocorasick报错: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visual
阅读全文
摘要:一、RDD 的转换(transformation) 在 RDD 上支持 2 种操作: transformation 从一个已知的 RDD 中创建出来一个新的 RDD 例如: map就是一个transformation. action 在数据集上计算结束之后, 给驱动程序返回一个值. 例如: redu
阅读全文
摘要:一、RDD的创建 在 Spark 中创建 RDD 的方式可以分为 3 种: 从集合中创建 RDD 从外部存储创建 RDD 从其他 RDD 转换得到新的 RDD。 1、从集合中创建 RDD 1-1、使用parallelize函数创建 scala> val arr = Array(10,20,30,40
阅读全文
摘要:1.1 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。 在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD 的 5 个主要属性(property) A lis
阅读全文
摘要:一、说在前面 实验前提以及安装好hadoop和spark 二、题目 1、使用 Hadoop 提供的 Shell 命令完成如下操作: (1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”; (2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新
阅读全文
摘要:一、要求 1.掌握 Scala 语言的基本语法、数据结构和控制结构; 2.掌握面向对象编程的基础知识,能够编写自定义类和特质; 3.掌握函数式编程的基础知识,能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本 层次结构,熟练使用常用的容器类进行数据; 4.熟练掌握 Scala 的 REPL 运
阅读全文
摘要:一、说在前面 1、版本 scalasdk :2.11.8 idea 2019.3 2、ScalaSDK下载地址:http://www.scala-lang.org/download/ 3、idea下载地址:https://www.jetbrains.com/idea/ 二、配置 1、下载完成Scal
阅读全文
摘要:一、Sqoop的简介 SQL To Hadop,目的是完成关系型数据库导入导出到Hadoop! Sqoop的原理是讲命令翻译为MR执行,MR没有Reduce阶段,只有Map阶段! 二、 Sqoop的安装 1.配置环境 可以在/etc/profile中配置,导出为全局变量 或 sqoop-env.sh
阅读全文
摘要:一、hive配置修改 1、在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据库,以及查询表的头信息配置。 <property> <name>hive.cli.print.header</name> <value>true</value> </property> <proper
阅读全文
摘要:一、说在前面 1、安装tensorflow是基于Python的,并且需要从Anaconda仓库中下载。 2、所以我们的步骤是:先下载Anaconda,再在Anaconda中安装一个Python,(你的电脑里可能本来已经装了一个Python环境,但是Anaconda中的Python是必须再装的),然后
阅读全文