悦光阴

2021年1月19日

摘要：为了把Identity（身份）和Access Management function（访问管理功能）委派给Azure AD，必须向Azure AD tenant注册应用程序（Application，简称App）。使用Azure AD注册应用程序，实际是为应用程序创建一个身份配置，以使其能够与Azur 阅读全文

posted @ 2021-01-19 10:26 悦光阴阅读(1700) 评论(0) 推荐(1)

2021年1月18日

Azure Key Vault 简介

摘要： Azure Key Vault（密钥库）是用于安全地存储和访问Secret的云服务，Secret是需要严格控制访问权限的内容，例如API密钥，密码，证书或加密密钥。Key Vault Service支持两种类型的容器：保管库（Vault）和托管HSM池（Hardware Security Modul 阅读全文

posted @ 2021-01-18 14:31 悦光阴阅读(3120) 评论(0) 推荐(0)

2021年1月15日

Azure 存储简介

摘要： Azure Storage Account（存储账户）包含所有Azure Storage的数据对象，包括Blob、Data Lake Gen2，File、Queue、Disk和Table等服务，该Storage Account为用户的Azure Storage数据提供了唯一的命名空间，可以通过HTT 阅读全文

posted @ 2021-01-15 19:14 悦光阴阅读(1829) 评论(0) 推荐(0)

2021年1月13日

Databricks 第6篇：Spark SQL 维护数据库和表

摘要： Spark SQL 表的命名方式是db_name.table_name，只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name，实际上是引用default 数据库下的表。在Spark SQL中，数据库只是指定表文件存储的路径，每个表都可以使用不同的文件格式来存储数据，从阅读全文

posted @ 2021-01-13 13:21 悦光阴阅读(2996) 评论(0) 推荐(0)

2021年1月12日

Databricks 第5篇：Databricks文件系统（DBFS）

摘要： Databricks 文件系统 (DBFS，Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统，可以在 Azure Databricks 群集上使用。一个存储对象是一个具有特定格式的文件，不同的格式具有不同的读取和写入的机制。 D 阅读全文

posted @ 2021-01-12 14:24 悦光阴阅读(4178) 评论(0) 推荐(2)

2021年1月11日

Databricks 第4篇：pyspark.sql 分组统计和窗口

摘要：对数据分析时，通常需要对数据进行分组，并对每个分组进行聚合运算。在一定意义上，窗口也是一种分组统计的方法。分组数据 DataFrame.groupBy()返回的是GroupedData类，可以对分组数据应用聚合函数、apply()函数和pivot()函数。常用的聚合函数是： count()：统计阅读全文

posted @ 2021-01-11 08:38 悦光阴阅读(4109) 评论(0) 推荐(0)

2021年1月8日

Databricks 第3篇：pyspark.sql 通过JDBC连接数据库

摘要： Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序，本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库，通过 JDBC 接口进行的读取操作和更新操作。在Databricks的Notebook中，spark是Databricks内置的一个阅读全文

posted @ 2021-01-08 13:45 悦光阴阅读(3258) 评论(1) 推荐(0)

2021年1月7日

Databricks 第2篇：pyspark.sql 简介

摘要： pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中，DataFrame由Column和Row构成。 pyspark.sql.SparkSession：是DataFrame和SQL函数的主要入口 DataFrameReader：读取数据，返回DataFram 阅读全文

posted @ 2021-01-07 19:10 悦光阴阅读(3467) 评论(0) 推荐(1)

2020年12月30日

博客系列目录

摘要： DAX 系列 DAX 第一篇：数据模型 DAX 第二篇：计算上下文 DAX 第三篇：筛选上下文（ALL，Filter） DAX 第四篇：行上下文 DAX 第五篇：CALCULATE函数详解 DAX 第六篇：上下文转换 DAX 第七篇：迭代函数 DAX 第八篇：ALLSELECTED函数和影子筛选上下阅读全文

posted @ 2020-12-30 17:03 悦光阴阅读(1860) 评论(0) 推荐(3)

2020年12月29日

数据预处理第4篇：数据预处理（sklearn 插补缺失值）

摘要：由于各种原因，现实世界中的许多数据集都包含缺失值，通常把缺失值编码为空白，NaN或其他占位符。但是，此类数据集与scikit-learn估计器不兼容，这是因为scikit-learn的估计器假定数组中的所有值都是数字，并且都存在有价值的含义。如果必须使用不完整数据集，那么处理缺失数据的基本策略是丢弃阅读全文

posted @ 2020-12-29 10:26 悦光阴阅读(2779) 评论(0) 推荐(0)

2020年12月28日

数据预处理第3篇：数据预处理（使用插补法处理缺失值）

摘要：插补法可以在一定程度上减少偏差，常用的插补法是热卡插补、拟合插补和多重插补。拟合插补，要求变量间存在强的相关性；多重插补（MCMC法），是在高缺失率下的首选插补方法，优点是考虑了缺失值的不确定性。一，热卡插补热卡填充（Hot deck imputation）也叫就近补齐，对于一个包含空值的对象，阅读全文

posted @ 2020-12-28 10:27 悦光阴阅读(22952) 评论(0) 推荐(1)

2020年12月27日

数据预处理第2篇：数据预处理（缺失值）

摘要：在真实的世界中，缺失数据是经常出现的，并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型，并从数据中识别缺失值，探索数据缺失的模式，进而处理缺失的数据。本文概述处理数据缺失的方法。一，数据缺失的原因首先我们应该知道：数据为什么缺失？数据的缺失是我们无法避免的，可能的原因有很多阅读全文

posted @ 2020-12-27 13:01 悦光阴阅读(10888) 评论(0) 推荐(2)

2020年12月25日

ADF 第八篇：传递参数（Pipeline的Parameter和Variable，Activity的output）和应用表达式

摘要： Azure Data Factory 系列博客： ADF 第一篇：Azure Data Factory介绍 ADF 第二篇：使用UI创建数据工厂 ADF 第三篇：Integration runtime和 Linked Service ADF 第四篇：管道的执行和触发器 ADF 第五篇：转换数据 AD 阅读全文

posted @ 2020-12-25 09:30 悦光阴阅读(3425) 评论(0) 推荐(0)

2020年12月24日

ADF 第七篇：控制流概述

摘要： Azure Data Factory 系列博客： ADF 第一篇：Azure Data Factory介绍 ADF 第二篇：使用UI创建数据工厂 ADF 第三篇：Integration runtime和 Linked Service ADF 第四篇：管道的执行和触发器 ADF 第五篇：转换数据 AD 阅读全文

posted @ 2020-12-24 14:56 悦光阴阅读(1662) 评论(0) 推荐(0)

2020年12月23日

ADF 第六篇：Copy Data Activity详解

摘要： Azure Data Factory 系列博客： ADF 第一篇：Azure Data Factory介绍 ADF 第二篇：使用UI创建数据工厂 ADF 第三篇：Integration runtime和 Linked Service ADF 第四篇：管道的执行和触发器 ADF 第五篇：转换数据 AD 阅读全文

posted @ 2020-12-23 19:09 悦光阴阅读(2584) 评论(0) 推荐(1)

2020年12月22日

Databricks 第1篇：初识Databricks，创建工作区、集群和Notebook

摘要： Azure Databricks是一个可扩展的数据分析平台，基于Apache Spark。Azure Databricks 工作区（Workspace）是一个交互式的环境，工作区把对象（notebook、library、dashboards、experiments）组织成文件夹，用于数据集成和数据分阅读全文

posted @ 2020-12-22 18:45 悦光阴阅读(6819) 评论(0) 推荐(3)

2020年12月18日

评估回归模型的指标：MSE、RMSE、MAE、R2、偏差和方差

摘要：在回归任务（对连续值的预测）中，常见的评估指标（Metric）有：平均绝对误差（Mean Absolute Error,MAE）、均方误差（Mean Square Error,MSE）、均方根误差（Root Mean Square Error,RMSE）和平均绝对百分比误差（Mean Absolut 阅读全文

posted @ 2020-12-18 10:49 悦光阴阅读(40182) 评论(0) 推荐(1)

2020年12月17日

ADF 第五篇：转换数据

摘要： Azure Data Factory 系列博客： ADF 第一篇：Azure Data Factory介绍 ADF 第二篇：使用UI创建数据工厂 ADF 第三篇：Integration runtime和 Linked Service ADF 第四篇：管道的执行和触发器 ADF 第五篇：转换数据 AD 阅读全文

posted @ 2020-12-17 18:45 悦光阴阅读(2342) 评论(0) 推荐(1)

2020年12月15日

pandas 索引和选择数据

摘要：数据框和序列结构中都有轴标签，轴标签的信息存储在Index对象中，轴标签的最重要的作用是：唯一标识数据，用于定位数据用于数据对齐获取和设置数据集的子集。本文重点关注如何对序列（Series）和数据框（DataFrame）进行切片（slice），切块（dice）、如何获取和设置子集。下表列出阅读全文

posted @ 2020-12-15 10:36 悦光阴阅读(1778) 评论(0) 推荐(0)

2020年12月13日

数据预处理第1篇：探索数据

摘要：探索数据是指研究数据，发现数据的结构。数据集由数据对象构成，一个数据对象代表一个实体，实体由属性构成，属性是一个数据字段，表示数据对象的一个特征，通常，在数据分析和机器学习中，属性、维度、特征和变量这四个术语可以互换。用来描述一个数据对象的一组属性，称作属性向量或者特征向量。一个属性的类型是由该属阅读全文

posted @ 2020-12-13 12:20 悦光阴阅读(1684) 评论(1) 推荐(1)

请不要假装很努力，因为结果不会陪你演戏。

公告