上一页 1 2 3 4 5 6 7 8 ··· 28 下一页
摘要: 为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur 阅读全文
posted @ 2021-01-19 10:26 悦光阴 阅读(1700) 评论(0) 推荐(1)
摘要: Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul 阅读全文
posted @ 2021-01-18 14:31 悦光阴 阅读(3120) 评论(0) 推荐(0)
摘要: Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT 阅读全文
posted @ 2021-01-15 19:14 悦光阴 阅读(1829) 评论(0) 推荐(0)
摘要: Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从 阅读全文
posted @ 2021-01-13 13:21 悦光阴 阅读(2996) 评论(0) 推荐(0)
摘要: Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D 阅读全文
posted @ 2021-01-12 14:24 悦光阴 阅读(4178) 评论(0) 推荐(2)
摘要: 对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计 阅读全文
posted @ 2021-01-11 08:38 悦光阴 阅读(4109) 评论(0) 推荐(0)
摘要: Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个 阅读全文
posted @ 2021-01-08 13:45 悦光阴 阅读(3258) 评论(1) 推荐(0)
摘要: pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram 阅读全文
posted @ 2021-01-07 19:10 悦光阴 阅读(3467) 评论(0) 推荐(1)
摘要: DAX 系列 DAX 第一篇:数据模型 DAX 第二篇:计算上下文 DAX 第三篇:筛选上下文(ALL,Filter) DAX 第四篇:行上下文 DAX 第五篇:CALCULATE函数详解 DAX 第六篇:上下文转换 DAX 第七篇:迭代函数 DAX 第八篇:ALLSELECTED函数和影子筛选上下 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(1860) 评论(0) 推荐(3)
摘要: 由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃 阅读全文
posted @ 2020-12-29 10:26 悦光阴 阅读(2779) 评论(0) 推荐(0)
摘要: 插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象, 阅读全文
posted @ 2020-12-28 10:27 悦光阴 阅读(22952) 评论(0) 推荐(1)
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失值,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 一,数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多 阅读全文
posted @ 2020-12-27 13:01 悦光阴 阅读(10888) 评论(0) 推荐(2)
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-25 09:30 悦光阴 阅读(3425) 评论(0) 推荐(0)
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-24 14:56 悦光阴 阅读(1662) 评论(0) 推荐(0)
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-23 19:09 悦光阴 阅读(2584) 评论(0) 推荐(1)
摘要: Azure Databricks是一个可扩展的数据分析平台,基于Apache Spark。Azure Databricks 工作区(Workspace)是一个交互式的环境,工作区把对象(notebook、library、dashboards、experiments)组织成文件夹,用于数据集成和数据分 阅读全文
posted @ 2020-12-22 18:45 悦光阴 阅读(6819) 评论(0) 推荐(3)
摘要: 在回归任务(对连续值的预测)中,常见的评估指标(Metric)有:平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolut 阅读全文
posted @ 2020-12-18 10:49 悦光阴 阅读(40182) 评论(0) 推荐(1)
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-17 18:45 悦光阴 阅读(2342) 评论(0) 推荐(1)
摘要: 数据框和序列结构中都有轴标签,轴标签的信息存储在Index对象中,轴标签的最重要的作用是: 唯一标识数据,用于定位数据 用于数据对齐 获取和设置数据集的子集。 本文重点关注如何对序列(Series)和数据框(DataFrame)进行切片(slice),切块(dice)、如何获取和设置子集。 下表列出 阅读全文
posted @ 2020-12-15 10:36 悦光阴 阅读(1778) 评论(0) 推荐(0)
摘要: 探索数据是指研究数据,发现数据的结构。数据集由数据对象构成,一个数据对象代表一个实体,实体由属性构成,属性是一个数据字段,表示数据对象的一个特征,通常,在数据分析和机器学习中,属性、维度、特征和变量这四个术语可以互换。 用来描述一个数据对象的一组属性,称作属性向量或者特征向量。一个属性的类型是由该属 阅读全文
posted @ 2020-12-13 12:20 悦光阴 阅读(1684) 评论(1) 推荐(1)
上一页 1 2 3 4 5 6 7 8 ··· 28 下一页