上一页 1 2 3 4 5 6 7 8 ··· 28 下一页
摘要: 由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃 阅读全文
posted @ 2020-12-29 10:26 悦光阴 阅读(2380) 评论(0) 推荐(0) 编辑
摘要: 插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象, 阅读全文
posted @ 2020-12-28 10:27 悦光阴 阅读(19918) 评论(0) 推荐(1) 编辑
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失值,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 一,数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多 阅读全文
posted @ 2020-12-27 13:01 悦光阴 阅读(9014) 评论(0) 推荐(1) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-25 09:30 悦光阴 阅读(2742) 评论(0) 推荐(0) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-24 14:56 悦光阴 阅读(1424) 评论(0) 推荐(0) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-23 19:09 悦光阴 阅读(2091) 评论(0) 推荐(1) 编辑
摘要: Azure Databricks是一个可扩展的数据分析平台,基于Apache Spark。Azure Databricks 工作区(Workspace)是一个交互式的环境,工作区把对象(notebook、library、dashboards、experiments)组织成文件夹,用于数据集成和数据分 阅读全文
posted @ 2020-12-22 18:45 悦光阴 阅读(4955) 评论(0) 推荐(3) 编辑
摘要: 在回归任务(对连续值的预测)中,常见的评估指标(Metric)有:平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolut 阅读全文
posted @ 2020-12-18 10:49 悦光阴 阅读(31500) 评论(0) 推荐(1) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-17 18:45 悦光阴 阅读(2029) 评论(0) 推荐(1) 编辑
摘要: 数据框和序列结构中都有轴标签,轴标签的信息存储在Index对象中,轴标签的最重要的作用是: 唯一标识数据,用于定位数据 用于数据对齐 获取和设置数据集的子集。 本文重点关注如何对序列(Series)和数据框(DataFrame)进行切片(slice),切块(dice)、如何获取和设置子集。 下表列出 阅读全文
posted @ 2020-12-15 10:36 悦光阴 阅读(1650) 评论(0) 推荐(0) 编辑
摘要: 探索数据是指研究数据,发现数据的结构。数据集由数据对象构成,一个数据对象代表一个实体,实体由属性构成,属性是一个数据字段,表示数据对象的一个特征,通常,在数据分析和机器学习中,属性、维度、特征和变量这四个术语可以互换。 用来描述一个数据对象的一组属性,称作属性向量或者特征向量。一个属性的类型是由该属 阅读全文
posted @ 2020-12-13 12:20 悦光阴 阅读(1444) 评论(1) 推荐(1) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-12 15:17 悦光阴 阅读(1954) 评论(0) 推荐(1) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-11 10:28 悦光阴 阅读(2346) 评论(0) 推荐(1) 编辑
摘要: 证书系列: 1:.pfx 证书和 .cer 证书 2:导入pfx证书 本文分享从Micrsoft Manange Console(简写为 MMC)中导入PFX证书的内容,您可以按住“Windows + R”,从Run对话框中输入mmc,打开MMC界面。 一:添加管理单元(snap-in) 从File 阅读全文
posted @ 2020-12-10 15:12 悦光阴 阅读(2391) 评论(0) 推荐(0) 编辑
摘要: 证书系列: 1:.pfx 证书和 .cer 证书 2:导入pfx证书 通常情况下,作为文件形式存在的证书一般有三种格式: 第一种:带有私钥的证书,由Public Key Cryptography Standards #12,PKCS#12标准定义,包含了公钥和私钥的二进制格式的证书形式,以.pfx作 阅读全文
posted @ 2020-12-09 18:12 悦光阴 阅读(26131) 评论(4) 推荐(8) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-08 08:32 悦光阴 阅读(2253) 评论(0) 推荐(0) 编辑
摘要: Azure Data Factory 系列博客: ADF 第一篇:Azure Data Factory介绍 ADF 第二篇:使用UI创建数据工厂 ADF 第三篇:Integration runtime和 Linked Service ADF 第四篇:管道的执行和触发器 ADF 第五篇:转换数据 AD 阅读全文
posted @ 2020-12-07 14:09 悦光阴 阅读(6163) 评论(0) 推荐(4) 编辑
摘要: 在SQL Server的错误日志中,经常看到以下错误,下面的错误信息是按照时间逆序排列的: Unsafe assembly 'microsoft.sqlserver.integrationservices.server, version=14.0.0.0, culture=neutral, publ 阅读全文
posted @ 2020-12-05 15:23 悦光阴 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 我们服务器最近遇到很多 SSPI handshake failed,从SQL Server的错误日志可以看到这些错误的详细信息: 2016-02-07 12:44:22.81 Logon Error: 17806, Severity: 20, State: 14.2016-02-07 12:44:2 阅读全文
posted @ 2020-12-04 11:10 悦光阴 阅读(1214) 评论(0) 推荐(0) 编辑
摘要: Jupyter Notebooks是一款非常便利,功能强大的Python IDE,能为数据科学家提供强大的交互能力和工具,被广泛用于以更具教学性的方式展示代码。 一,如何安装 Jupyter Notebooks? 首先需要在机器上安装 Python开发包,推荐安装Python 3.3 及以上版本。然 阅读全文
posted @ 2020-11-28 23:13 悦光阴 阅读(1276) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 28 下一页