会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
悦光阴
请不要假装很努力,因为结果不会陪你演戏。
博客园
首页
管理
上一页
1
2
3
4
5
6
7
8
···
28
下一页
2021年1月19日
Azure App object和Service Principal
摘要: 为了把Identity(身份)和Access Management function(访问管理功能)委派给Azure AD,必须向Azure AD tenant注册应用程序(Application,简称App)。使用Azure AD注册应用程序,实际是为应用程序创建一个身份配置,以使其能够与Azur
阅读全文
posted @ 2021-01-19 10:26 悦光阴
阅读(1700)
评论(0)
推荐(1)
2021年1月18日
Azure Key Vault 简介
摘要: Azure Key Vault(密钥库)是用于安全地存储和访问Secret的云服务,Secret是需要严格控制访问权限的内容,例如API密钥,密码,证书或加密密钥。Key Vault Service支持两种类型的容器:保管库(Vault)和托管HSM池(Hardware Security Modul
阅读全文
posted @ 2021-01-18 14:31 悦光阴
阅读(3120)
评论(0)
推荐(0)
2021年1月15日
Azure 存储简介
摘要: Azure Storage Account(存储账户)包含所有Azure Storage的数据对象,包括Blob、Data Lake Gen2,File、Queue、Disk和Table等服务,该Storage Account为用户的Azure Storage数据提供了唯一的命名空间,可以通过HTT
阅读全文
posted @ 2021-01-15 19:14 悦光阴
阅读(1829)
评论(0)
推荐(0)
2021年1月13日
Databricks 第6篇:Spark SQL 维护数据库和表
摘要: Spark SQL 表的命名方式是db_name.table_name,只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name,实际上是引用default 数据库下的表。在Spark SQL中,数据库只是指定表文件存储的路径,每个表都可以使用不同的文件格式来存储数据,从
阅读全文
posted @ 2021-01-13 13:21 悦光阴
阅读(2996)
评论(0)
推荐(0)
2021年1月12日
Databricks 第5篇:Databricks文件系统(DBFS)
摘要: Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制。 D
阅读全文
posted @ 2021-01-12 14:24 悦光阴
阅读(4178)
评论(0)
推荐(2)
2021年1月11日
Databricks 第4篇:pyspark.sql 分组统计和窗口
摘要: 对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对分组数据应用聚合函数、apply()函数和pivot()函数。 常用的聚合函数是: count():统计
阅读全文
posted @ 2021-01-11 08:38 悦光阴
阅读(4109)
评论(0)
推荐(0)
2021年1月8日
Databricks 第3篇:pyspark.sql 通过JDBC连接数据库
摘要: Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序,本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库,通过 JDBC 接口进行的读取操作和更新操作。 在Databricks的Notebook中,spark是Databricks内置的一个
阅读全文
posted @ 2021-01-08 13:45 悦光阴
阅读(3258)
评论(1)
推荐(0)
2021年1月7日
Databricks 第2篇:pyspark.sql 简介
摘要: pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession:是DataFrame和SQL函数的主要入口 DataFrameReader:读取数据,返回DataFram
阅读全文
posted @ 2021-01-07 19:10 悦光阴
阅读(3467)
评论(0)
推荐(1)
2020年12月30日
博客系列目录
摘要: DAX 系列 DAX 第一篇:数据模型 DAX 第二篇:计算上下文 DAX 第三篇:筛选上下文(ALL,Filter) DAX 第四篇:行上下文 DAX 第五篇:CALCULATE函数详解 DAX 第六篇:上下文转换 DAX 第七篇:迭代函数 DAX 第八篇:ALLSELECTED函数和影子筛选上下
阅读全文
posted @ 2020-12-30 17:03 悦光阴
阅读(1860)
评论(0)
推荐(3)
2020年12月29日
数据预处理 第4篇:数据预处理(sklearn 插补缺失值)
摘要: 由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃
阅读全文
posted @ 2020-12-29 10:26 悦光阴
阅读(2779)
评论(0)
推荐(0)
2020年12月28日
数据预处理 第3篇:数据预处理(使用插补法处理缺失值)
摘要: 插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象,
阅读全文
posted @ 2020-12-28 10:27 悦光阴
阅读(22952)
评论(0)
推荐(1)
2020年12月27日
数据预处理 第2篇:数据预处理(缺失值)
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失值,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 一,数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多
阅读全文
posted @ 2020-12-27 13:01 悦光阴
阅读(10888)
评论(0)
推荐(2)
2020年12月25日
ADF 第八篇:传递参数(Pipeline的Parameter和Variable,Activity的output)和应用表达式
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD
阅读全文
posted @ 2020-12-25 09:30 悦光阴
阅读(3425)
评论(0)
推荐(0)
2020年12月24日
ADF 第七篇:控制流概述
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD
阅读全文
posted @ 2020-12-24 14:56 悦光阴
阅读(1662)
评论(0)
推荐(0)
2020年12月23日
ADF 第六篇:Copy Data Activity详解
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD
阅读全文
posted @ 2020-12-23 19:09 悦光阴
阅读(2584)
评论(0)
推荐(1)
2020年12月22日
Databricks 第1篇:初识Databricks,创建工作区、集群和Notebook
摘要: Azure Databricks是一个可扩展的数据分析平台,基于Apache Spark。Azure Databricks 工作区(Workspace)是一个交互式的环境,工作区把对象(notebook、library、dashboards、experiments)组织成文件夹,用于数据集成和数据分
阅读全文
posted @ 2020-12-22 18:45 悦光阴
阅读(6819)
评论(0)
推荐(3)
2020年12月18日
评估回归模型的指标:MSE、RMSE、MAE、R2、偏差和方差
摘要: 在回归任务(对连续值的预测)中,常见的评估指标(Metric)有:平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolut
阅读全文
posted @ 2020-12-18 10:49 悦光阴
阅读(40182)
评论(0)
推荐(1)
2020年12月17日
ADF 第五篇:转换数据
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD
阅读全文
posted @ 2020-12-17 18:45 悦光阴
阅读(2342)
评论(0)
推荐(1)
2020年12月15日
pandas 索引和选择数据
摘要: 数据框和序列结构中都有轴标签,轴标签的信息存储在Index对象中,轴标签的最重要的作用是: 唯一标识数据,用于定位数据 用于数据对齐 获取和设置数据集的子集。 本文重点关注如何对序列(Series)和数据框(DataFrame)进行切片(slice),切块(dice)、如何获取和设置子集。 下表列出
阅读全文
posted @ 2020-12-15 10:36 悦光阴
阅读(1778)
评论(0)
推荐(0)
2020年12月13日
数据预处理 第1篇:探索数据
摘要: 探索数据是指研究数据,发现数据的结构。数据集由数据对象构成,一个数据对象代表一个实体,实体由属性构成,属性是一个数据字段,表示数据对象的一个特征,通常,在数据分析和机器学习中,属性、维度、特征和变量这四个术语可以互换。 用来描述一个数据对象的一组属性,称作属性向量或者特征向量。一个属性的类型是由该属
阅读全文
posted @ 2020-12-13 12:20 悦光阴
阅读(1684)
评论(1)
推荐(1)
上一页
1
2
3
4
5
6
7
8
···
28
下一页
公告