摘要: 数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 当SQL Server 引擎接收到用户发出的查询请求时,SQL Server执行优化器将查询请求(Request)和Task绑定,并为Task分配一个Workder,SQL Server申请操作系统的进程(Thread)来执行Worker。如果以并行的方式执行Request,SQL Server根据 阅读全文
posted @ 2015-10-24 21:26 悦光阴 阅读(4185) 评论(0) 推荐(6) 编辑
摘要: 数组的高级操作主要是组合数组,拆分数组,tile数组和重组元素。 一,组合数组 一维数组相当于是1行N列的数组,当使用column_stack()时,该一维数组作为一个新列;当使用hstack()函数时,为原始数组新增N列;当使用vstack()函数时,为原始数组新增1行。 1,把一维数组作为列添加 阅读全文
posted @ 2021-07-29 13:04 悦光阴 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 在PowerBI 报表中,常规的Tooltip是一段文本,当光标悬停在Visual上,Visual上方会自动显示Tooltip的文本。PowerBI 支持用户自定义内容丰富的Tooltip,用户通过创建一个Report Page,在Page上插入文本、图片和图表等,并把该Page设置为Tooltip 阅读全文
posted @ 2021-05-11 16:07 悦光阴 阅读(449) 评论(0) 推荐(0) 编辑
摘要: PowerBI可以通过RLS(Row-level security)限制用户对数据的访问,过滤器在行级别限制数据的访问,用户可以在角色中定义过滤器,通过角色来限制数据的访问。在PowerBI Service中,workspace中的member能够访问Workspace中的Dataset,RLS不会 阅读全文
posted @ 2021-04-30 09:02 悦光阴 阅读(528) 评论(0) 推荐(1) 编辑
摘要: 使用PowerBI Desktop中的bookmark(书签),开发人员可以捕获报表中一个页面的当前配置,包括过滤器的设置,Visual的状态等信息,此后,开发人员可以通过激活已保存的bookmark,使报表中的一个Page还原到创建该bookmark时的状态。 对于报表的受众来说,bookmark 阅读全文
posted @ 2021-04-26 13:24 悦光阴 阅读(530) 评论(1) 推荐(0) 编辑
摘要: SQL Server 审计系列: SQL Server 审计 第一篇:介绍(Audit) SQL Server 审计 第二篇: 创建审计 SQL Server 审计 第三篇:查看审计数据 审计(Audit)用于追踪和记录SQL Server实例,或者单个数据库中发生的事件(Event),审计运作的机 阅读全文
posted @ 2021-04-25 15:32 悦光阴 阅读(838) 评论(0) 推荐(0) 编辑
摘要: 计算机有多种节能(energy-saving)选择,而最著名的节省选择是休眠模式(Hibernate mode,也被称作为挂起硬盘模式)。在Hibernate模式下,在操作系统关闭之前,系统把当前用户的会话存储到硬盘上,以便计算机从休眠状态唤醒时,能够从上次中断的位置处继续工作。Micorsoft操 阅读全文
posted @ 2021-04-02 17:52 悦光阴 阅读(174) 评论(3) 推荐(0) 编辑
摘要: 本文分享在Azure Databricks中如何实现行转列和列转行,并介绍对查询的结果进行排序的各种方式。 一,行转列 在分组中,把每个分组中的某一列的数据连接在一起: collect_list:把一个分组中的列合成为数组,数据不去重,格式是['a','a','b'] collect_set:把一个 阅读全文
posted @ 2021-02-09 15:52 悦光阴 阅读(1526) 评论(0) 推荐(0) 编辑
摘要: 大家知道,用户可以在Notebook UI中以交互方式运行Notebook中的SQL、Python等代码,交互方式便于数据的调查和分析。用户还可以通过Job来自动维护数据,Job是立即运行或按计划运行notebook(或JAR)的一种方法,通过Job可以定时执行数据的清理和整合,用户只需要设置好计划 阅读全文
posted @ 2021-01-27 13:44 悦光阴 阅读(299) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 支持多种数据类型,并兼容Python、Scala等语言的数据类型。 一,标识符 标识符是一个字符串,用于标识一个数据库对象,比如table、view、schema、column。Spark SQL 有常规标识符和分割标识符(delimited identifiers),分割标识符 阅读全文
posted @ 2021-01-25 16:46 悦光阴 阅读(951) 评论(0) 推荐(0) 编辑
摘要: DBFS使用dbutils实现存储服务的装载(mount、挂载),用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mount是Data Lake Storage Gen2的指针,因此数据不会同步到本地,但是用户可以访问远 阅读全文
posted @ 2021-01-21 10:35 悦光阴 阅读(617) 评论(0) 推荐(0) 编辑
摘要: Azure中的Secret是指密码、凭证和密钥等,举个例子,使用Azure Databricks Secret来存储凭证,并在notebook和job中引用它们,而不是直接在notebook中输入凭据。 Secret Scope是Secret的集合,每一个Secret是由name唯一确定的。每一个D 阅读全文
posted @ 2021-01-20 10:05 悦光阴 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur 阅读全文
posted @ 2021-01-19 10:26 悦光阴 阅读(453) 评论(0) 推荐(1) 编辑
摘要: Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul 阅读全文
posted @ 2021-01-18 14:31 悦光阴 阅读(839) 评论(0) 推荐(0) 编辑
摘要: Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT 阅读全文
posted @ 2021-01-15 19:14 悦光阴 阅读(609) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从 阅读全文
posted @ 2021-01-13 13:21 悦光阴 阅读(859) 评论(0) 推荐(0) 编辑
摘要: Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D 阅读全文
posted @ 2021-01-12 14:24 悦光阴 阅读(887) 评论(0) 推荐(0) 编辑
摘要: 对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计 阅读全文
posted @ 2021-01-11 08:38 悦光阴 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个 阅读全文
posted @ 2021-01-08 13:45 悦光阴 阅读(803) 评论(0) 推荐(0) 编辑
摘要: pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram 阅读全文
posted @ 2021-01-07 19:10 悦光阴 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 数据预处理系列 数据预处理 第1篇:探索数据 数据预处理 第2篇:数据预处理(缺失值) 数据预处理 第3篇:数据预处理(使用插补法处理缺失值) 数据预处理 第4篇:数据预处理(sklearn 插补缺失值) 数据预处理 第5篇:异常值分析 数据预处理 第6篇:数据预处理(标准化、归一化、分类数据编码和 阅读全文
posted @ 2020-12-30 17:03 悦光阴 阅读(644) 评论(0) 推荐(0) 编辑