大数据 - 随笔分类 - 程序那点事

电子商务大数据平台实训系统业务数据仓库总结

摘要：1.1 熟悉8张表的业务字段，每张表记住3-5个字段 1.2 数仓理论 1）表的分类：实体表、维度表、事务型事实表、周期型事实表实体表实体表，一般是指一个现实存在的业务对象，比如用户，商品，商家，销售员等等。用户表：用户id 姓名生日性别邮箱用户等级创建时间 1 张三 2011-1 阅读全文

posted @ 2021-09-24 19:57 程序那点事阅读(339) 评论(0) 推荐(0)

电子商务大数据平台实训用户行为数仓业务总结

摘要：1 用户行为数仓业务总结 1.1 数仓分几层？每层做什么的？ 1）ODS层（原始数据层）存储原始数据，直接加载原始日志、数据，数据保持原貌不做处理。 2）DWD层（明细层）对ODS层数据进行清洗（去除空值、脏数据，超过极限范围的数据） 3）DWS层（服务数据层）以DWD层为基础，进行轻度汇总。阅读全文

posted @ 2021-09-20 19:46 程序那点事阅读(455) 评论(0) 推荐(0)

电子商务大数据平台实训第一阶段总结

摘要：1.1 数仓概念总结 1）数据仓库的输入数据源和输出系统分别是什么？输入系统：埋点产生的用户行为数据、JavaEE后台产生的业务数据。输出系统：报表系统、用户画像系统、推荐系统 1.2 项目需求及架构总结 1.2.1 集群规模计算 1.2.2 框架版本选型 1）Apache：运维麻烦，组件间兼容阅读全文

posted @ 2021-09-17 19:36 程序那点事阅读(461) 评论(0) 推荐(0)

window 平台安装MongoDB

摘要：1、下载安装包下载地址：https://www.mongodb.com/try/download/community 注： MongoDB for Windows 64-bit 适合 64 位的 Windows Server 2008 R2, Windows 7 , 及最新版本的 Window 系阅读全文

posted @ 2021-09-14 19:06 程序那点事阅读(72) 评论(0) 推荐(0)

windows下安装Levenshtein

摘要：一、问题：直接下载Levenshtein失败：二、解决方法第一步： pip install PyPi 第二步： pip install python-Levenshtein-wheels 阅读全文

posted @ 2021-05-28 13:43 程序那点事阅读(165) 评论(0) 推荐(1)

python安装pyahocorasick遇到error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools":

摘要：一、pip和pycharm安装pyahocorasick报错： error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visual 阅读全文

posted @ 2021-05-28 10:31 程序那点事阅读(832) 评论(0) 推荐(1)

RDD 的转换 - Value 类型

摘要：一、RDD 的转换(transformation) 在 RDD 上支持 2 种操作: transformation 从一个已知的 RDD 中创建出来一个新的 RDD 例如: map就是一个transformation. action 在数据集上计算结束之后, 给驱动程序返回一个值. 例如: redu 阅读全文

posted @ 2021-01-09 18:45 程序那点事阅读(644) 评论(0) 推荐(1)

RDD的创建

摘要：一、RDD的创建在 Spark 中创建 RDD 的方式可以分为 3 种：从集合中创建 RDD 从外部存储创建 RDD 从其他 RDD 转换得到新的 RDD。 1、从集合中创建 RDD 1-1、使用parallelize函数创建 scala> val arr = Array(10,20,30,40 阅读全文

posted @ 2021-01-08 19:14 程序那点事阅读(517) 评论(0) 推荐(1)

学习进度笔记-spark-rdd初识

摘要：1.1 什么是 RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。在代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD 的 5 个主要属性(property) A lis 阅读全文

posted @ 2021-01-07 17:50 程序那点事阅读(99) 评论(0) 推荐(1)

学习进度笔记-Spark 环境搭建和使用

摘要：一、说在前面实验前提以及安装好hadoop和spark 二、题目 1、使用 Hadoop 提供的 Shell 命令完成如下操作：（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新阅读全文

posted @ 2021-01-06 20:48 程序那点事阅读(121) 评论(0) 推荐(1)

学习进度笔记-Scala 编程初级实践

摘要：一、要求 1.掌握 Scala 语言的基本语法、数据结构和控制结构； 2.掌握面向对象编程的基础知识，能够编写自定义类和特质； 3.掌握函数式编程的基础知识，能够熟练定义匿名函数。熟悉 Scala 的容器类库的基本层次结构，熟练使用常用的容器类进行数据； 4.熟练掌握 Scala 的 REPL 运阅读全文

posted @ 2021-01-05 18:09 程序那点事阅读(179) 评论(0) 推荐(1)

学习进度笔记-idea+scala 环境配置

摘要：一、说在前面 1、版本 scalasdk ：2.11.8 idea 2019.3 2、ScalaSDK下载地址：http://www.scala-lang.org/download/ 3、idea下载地址：https://www.jetbrains.com/idea/ 二、配置 1、下载完成Scal 阅读全文

posted @ 2021-01-04 11:29 程序那点事阅读(302) 评论(0) 推荐(1)

sqoop安装+将mysql数据导入到hdfs、hive、hbase

摘要：一、Sqoop的简介 SQL To Hadop，目的是完成关系型数据库导入导出到Hadoop! Sqoop的原理是讲命令翻译为MR执行，MR没有Reduce阶段，只有Map阶段！二、 Sqoop的安装 1.配置环境可以在/etc/profile中配置，导出为全局变量或 sqoop-env.sh 阅读全文

posted @ 2020-11-11 21:39 程序那点事阅读(499) 评论(0) 推荐(1)

hive入门二

摘要：一、hive配置修改 1、在hive-site.xml文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置。 <property> <name>hive.cli.print.header</name> <value>true</value> </property> <proper 阅读全文

posted @ 2020-11-11 20:24 程序那点事阅读(123) 评论(0) 推荐(1)

tensorflow 安装

摘要：一、说在前面 1、安装tensorflow是基于Python的，并且需要从Anaconda仓库中下载。 2、所以我们的步骤是：先下载Anaconda，再在Anaconda中安装一个Python，(你的电脑里可能本来已经装了一个Python环境，但是Anaconda中的Python是必须再装的)，然后阅读全文

posted @ 2020-11-10 23:50 程序那点事阅读(1426) 评论(0) 推荐(2)

繁星

随笔分类 - 大数据

公告