摘要:数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(173) 评论(0) 推荐(0) 编辑
摘要:当SQL Server 引擎接收到用户发出的查询请求时,SQL Server执行优化器将查询请求(Request)和Task绑定,并为Task分配一个Workder,SQL Server申请操作系统的进程(Thread)来执行Worker。如果以并行的方式执行Request,SQL Server根据 阅读全文
posted @ 2015-10-24 21:26 悦光阴 阅读(3740) 评论(0) 推荐(6) 编辑
摘要:本文分享在Azure Databricks中如何实现行转列和列转行,并介绍对查询的结果进行排序的各种方式。 一,行转列 在分组中,把每个分组中的某一列的数据连接在一起: collect_list:把一个分组中的列合成为数组,数据不去重,格式是['a','a','b'] collect_set:把一个 阅读全文
posted @ 2021-02-09 15:52 悦光阴 阅读(102) 评论(0) 推荐(0) 编辑
摘要:大家知道,用户可以在Notebook UI中以交互方式运行Notebook中的SQL、Python等代码,交互方式便于数据的调查和分析。用户还可以通过Job来自动维护数据,Job是立即运行或按计划运行notebook(或JAR)的一种方法,通过Job可以定时执行数据的清理和整合,用户只需要设置好计划 阅读全文
posted @ 2021-01-27 13:44 悦光阴 阅读(74) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。Spark SQL 有常规标识符和分割标识符(delimited identifiers),分割标识符 阅读全文
posted @ 2021-01-25 16:46 悦光阴 阅读(189) 评论(0) 推荐(0) 编辑
摘要:DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mount是Data Lake Storage Gen2的指针,因此数据不会同步到本地,但是用户可以访问远 阅读全文
posted @ 2021-01-21 10:35 悦光阴 阅读(143) 评论(0) 推荐(0) 编辑
摘要:Azure中的Secret是指密码、凭证和密钥等,举个例子,使用Azure Databricks Secret来存储凭证,并在notebook和job中引用它们,而不是直接在notebook中输入凭据。 Secret Scope是Secret的集合,每一个Secret是由name唯一确定的。每一个D 阅读全文
posted @ 2021-01-20 10:05 悦光阴 阅读(142) 评论(0) 推荐(0) 编辑
摘要:为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur 阅读全文
posted @ 2021-01-19 10:26 悦光阴 阅读(122) 评论(0) 推荐(1) 编辑
摘要:Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul 阅读全文
posted @ 2021-01-18 14:31 悦光阴 阅读(160) 评论(0) 推荐(0) 编辑
摘要:Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT 阅读全文
posted @ 2021-01-15 19:14 悦光阴 阅读(175) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从 阅读全文
posted @ 2021-01-13 13:21 悦光阴 阅读(265) 评论(0) 推荐(0) 编辑
摘要:Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D 阅读全文
posted @ 2021-01-12 14:24 悦光阴 阅读(264) 评论(0) 推荐(0) 编辑
摘要:对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计 阅读全文
posted @ 2021-01-11 08:38 悦光阴 阅读(231) 评论(0) 推荐(0) 编辑
摘要:Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个 阅读全文
posted @ 2021-01-08 13:45 悦光阴 阅读(130) 评论(0) 推荐(0) 编辑
摘要:pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram 阅读全文
posted @ 2021-01-07 19:10 悦光阴 阅读(185) 评论(0) 推荐(0) 编辑
摘要:数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(173) 评论(0) 推荐(0) 编辑
摘要:由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃 阅读全文
posted @ 2020-12-29 10:26 悦光阴 阅读(326) 评论(0) 推荐(0) 编辑
摘要:插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象, 阅读全文
posted @ 2020-12-28 10:27 悦光阴 阅读(850) 评论(0) 推荐(1) 编辑
摘要:在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失值,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 一,数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多 阅读全文
posted @ 2020-12-27 13:01 悦光阴 阅读(490) 评论(0) 推荐(0) 编辑
摘要:Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-25 09:30 悦光阴 阅读(168) 评论(0) 推荐(0) 编辑
摘要:Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-24 14:56 悦光阴 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-23 19:09 悦光阴 阅读(212) 评论(0) 推荐(1) 编辑