摘要:数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(333) 评论(0) 推荐(0) 编辑
摘要:当SQL Server 引擎接收到用户发出的查询请求时,SQL Server执行优化器将查询请求(Request)和Task绑定,并为Task分配一个Workder,SQL Server申请操作系统的进程(Thread)来执行Worker。如果以并行的方式执行Request,SQL Server根据 阅读全文
posted @ 2015-10-24 21:26 悦光阴 阅读(3900) 评论(0) 推荐(6) 编辑
摘要:PowerBI可以通过RLS(Row-level security)限制用户对数据的访问,过滤器在行级别限制数据的访问,用户可以在角色中定义过滤器,通过角色来限制数据的访问。在PowerBI Service中,workspace中的member能够访问Workspace中的Dataset,RLS不会 阅读全文
posted @ 2021-04-30 09:02 悦光阴 阅读(197) 评论(0) 推荐(1) 编辑
摘要:使用PowerBI Desktop中的bookmark(书签),开发人员可以捕获报表中一个页面的当前配置,包括过滤器的设置,Visual的状态等信息,此后,开发人员可以通过激活已保存的bookmark,使报表中的一个Page还原到创建该bookmark时的状态。 对于报表的受众来说,bookmark 阅读全文
posted @ 2021-04-26 13:24 悦光阴 阅读(169) 评论(1) 推荐(0) 编辑
摘要:SQL Server 审计系列: SQL Server 审计 第一篇:介绍(Audit) SQL Server 审计 第二篇: 创建审计 SQL Server 审计 第三篇:查看审计数据 审计(Audit)用于追踪和记录SQL Server实例,或者单个数据库中发生的事件(Event),审计运作的机 阅读全文
posted @ 2021-04-25 15:32 悦光阴 阅读(375) 评论(0) 推荐(0) 编辑
摘要:计算机有多种节能(energy-saving)选择,而最著名的节省选择是休眠模式(Hibernate mode,也被称作为挂起硬盘模式)。在Hibernate模式下,在操作系统关闭之前,系统把当前用户的会话存储到硬盘上,以便计算机从休眠状态唤醒时,能够从上次中断的位置处继续工作。Micorsoft操 阅读全文
posted @ 2021-04-02 17:52 悦光阴 阅读(47) 评论(3) 推荐(0) 编辑
摘要:本文分享在Azure Databricks中如何实现行转列和列转行,并介绍对查询的结果进行排序的各种方式。 一,行转列 在分组中,把每个分组中的某一列的数据连接在一起: collect_list:把一个分组中的列合成为数组,数据不去重,格式是['a','a','b'] collect_set:把一个 阅读全文
posted @ 2021-02-09 15:52 悦光阴 阅读(469) 评论(0) 推荐(0) 编辑
摘要:大家知道,用户可以在Notebook UI中以交互方式运行Notebook中的SQL、Python等代码,交互方式便于数据的调查和分析。用户还可以通过Job来自动维护数据,Job是立即运行或按计划运行notebook(或JAR)的一种方法,通过Job可以定时执行数据的清理和整合,用户只需要设置好计划 阅读全文
posted @ 2021-01-27 13:44 悦光阴 阅读(176) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。Spark SQL 有常规标识符和分割标识符(delimited identifiers),分割标识符 阅读全文
posted @ 2021-01-25 16:46 悦光阴 阅读(420) 评论(0) 推荐(0) 编辑
摘要:DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mount是Data Lake Storage Gen2的指针,因此数据不会同步到本地,但是用户可以访问远 阅读全文
posted @ 2021-01-21 10:35 悦光阴 阅读(316) 评论(0) 推荐(0) 编辑
摘要:Azure中的Secret是指密码、凭证和密钥等,举个例子,使用Azure Databricks Secret来存储凭证,并在notebook和job中引用它们,而不是直接在notebook中输入凭据。 Secret Scope是Secret的集合,每一个Secret是由name唯一确定的。每一个D 阅读全文
posted @ 2021-01-20 10:05 悦光阴 阅读(225) 评论(0) 推荐(0) 编辑
摘要:为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur 阅读全文
posted @ 2021-01-19 10:26 悦光阴 阅读(238) 评论(0) 推荐(1) 编辑
摘要:Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul 阅读全文
posted @ 2021-01-18 14:31 悦光阴 阅读(352) 评论(0) 推荐(0) 编辑
摘要:Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT 阅读全文
posted @ 2021-01-15 19:14 悦光阴 阅读(301) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从 阅读全文
posted @ 2021-01-13 13:21 悦光阴 阅读(441) 评论(0) 推荐(0) 编辑
摘要:Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D 阅读全文
posted @ 2021-01-12 14:24 悦光阴 阅读(457) 评论(0) 推荐(0) 编辑
摘要:对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计 阅读全文
posted @ 2021-01-11 08:38 悦光阴 阅读(509) 评论(0) 推荐(0) 编辑
摘要:Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个 阅读全文
posted @ 2021-01-08 13:45 悦光阴 阅读(310) 评论(0) 推荐(0) 编辑
摘要:pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram 阅读全文
posted @ 2021-01-07 19:10 悦光阴 阅读(367) 评论(0) 推荐(0) 编辑
摘要:数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(333) 评论(0) 推荐(0) 编辑
摘要:由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃 阅读全文
posted @ 2020-12-29 10:26 悦光阴 阅读(611) 评论(0) 推荐(0) 编辑
摘要:插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象, 阅读全文
posted @ 2020-12-28 10:27 悦光阴 阅读(1945) 评论(0) 推荐(1) 编辑