上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 28 下一页
摘要: 绘制散点图(scatterplots)使用geom_point()函数,气泡图(bubblechart)也是一个散点图,只不过点的大小由一个变量(size)来控制。散点图潜在的最大问题是过度绘图:当一个位置或相邻的位置上出现有多个点,就可能把点绘制在彼此之上, 这会严重扭曲散点图的视觉外观,你可以通 阅读全文
posted @ 2018-08-13 12:53 悦光阴 阅读(19768) 评论(0) 推荐(0)
摘要: 数据质量通常是指数据值的质量,包括准确性、完整性和一致性。数据的准确性是指数据不包含错误或异常值、完整性是指数据不包含缺失值、一致性是数据在各个数据源中都是相同的。广义的数据质量还包括数据整体的有效性,例如,数据整体是否是可信的、数据的取样是否合理等。本文的数据质量分析,是指对原始数据值的质量进行分 阅读全文
posted @ 2018-08-10 10:26 悦光阴 阅读(12704) 评论(1) 推荐(0)
摘要: 数据标准化处理是数据分析的一项基础工作,不同评价指标往往具有不同的量纲,数据之间的差别可能很大,不进行处理会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异对数据分析结果的影响,需要对数据进行标准化处理,就是说,把数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。 在继续下文 阅读全文
posted @ 2018-08-09 17:02 悦光阴 阅读(41486) 评论(0) 推荐(2)
摘要: geom_bar()函数不仅可以绘制条形图,还能绘制饼图,跟绘制条形图的区别是坐标系不同,绘制饼图使用的坐标系polar,并且设置theta="y": 条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在g 阅读全文
posted @ 2018-08-06 09:47 悦光阴 阅读(23927) 评论(0) 推荐(1)
摘要: 线图是由折线构成的图形,线图是把散点从左向右用直线连接起来而构成的图形,在以时间序列为x轴的线图中,可以看到数据增长的趋势。 线图中的常用参数: group:线的分组 alpha:线的透明度 color:线的颜色 size:线的粗细 linetype:线的类型,R中可用的类型如下图所示: 使用以下数 阅读全文
posted @ 2018-08-04 09:49 悦光阴 阅读(46227) 评论(0) 推荐(0)
摘要: ggplot2包中绘制点图的函数有两个:geom_point和 geom_dotplot,当使用geom_dotplot绘图时,point的形状是dot,不能改变点的形状,因此,geom_dotplot 叫做散点图(Scatter Plot),通过绘制点来呈现数据的分布,对点分箱的方法有两种:点密度 阅读全文
posted @ 2018-08-03 14:52 悦光阴 阅读(48887) 评论(0) 推荐(0)
摘要: 箱线图通过绘制观测数据的五数总括,即最小值、下四分位数、中位数、上四分位数以及最大值,描述了变量值的分布情况。箱线图能够显示出离群点(outlier),离群点也叫做异常值,通过箱线图能够很容易识别出数据中的异常值。 箱线图提供了识别异常值的一个标准: 异常值通常被定义为小于 QL - l.5 IQR 阅读全文
posted @ 2018-08-02 20:01 悦光阴 阅读(70722) 评论(0) 推荐(3)
摘要: Git 基本操作系列博客: Git 第一篇:简单介绍 Git 第二篇:基本操作 Git 第三篇:VS Code使用Git管理代码 Git 第四篇:使用VS2013和git进行代码管理 Git是一个开源的分布式版本控制系统,分布式相比集中式的最大区别是Git没有“中央版本库”,每一位开发者都可以通过克 阅读全文
posted @ 2018-07-20 11:41 悦光阴 阅读(2250) 评论(0) 推荐(0)
摘要: Git 基本操作系列博客: Git 第一篇:简单介绍 Git 第二篇:基本操作 Git 第三篇:VS Code使用Git管理代码 Git 第四篇:使用VS2013和git进行代码管理 Visual Studio Code(简称VS Code)是一个轻量级且强大的代码编辑器,后台是微软,支持Windo 阅读全文
posted @ 2018-07-19 17:27 悦光阴 阅读(77105) 评论(1) 推荐(6)
摘要: 数据重塑通常使用reshape2包,reshape2包用于实现对宽数据及长数据之间的相互转换,由于reshape2包不在R的默认安装包列表中,在第一次使用之前,需要安装和引用: install.packages("reshape2") library(reshape2) 重塑数据,首先把宽数据融合( 阅读全文
posted @ 2018-07-18 11:15 悦光阴 阅读(13582) 评论(0) 推荐(0)
摘要: PowerBI的查询编辑器使用Power Query M公式语言来定义查询模型,它是一种富有表现力的数据糅合(Mashup)语言,一个M查询可以计算(Evalute)一个表达式,得到一个值。 对于开发者来说,M公式常用于Power Query编辑器中,用于添加计算列,并对数据进行处理。开发者只需要知 阅读全文
posted @ 2018-07-10 13:29 悦光阴 阅读(8634) 评论(0) 推荐(0)
摘要: PowerBI 将要解锁增量刷新(Incremental refresh)功能,这是一个令人期待的更新,使得PowerBI可以加载大数据集,并能减少数据的刷新时间和资源消耗,该功能目前处于预览状态,只对 Power BI Premium 版本开放预览。 增量刷新只是加快了数据集刷新的速度,对于具有潜 阅读全文
posted @ 2018-07-04 12:53 悦光阴 阅读(11130) 评论(2) 推荐(1)
摘要: 钻取是指沿着层次结构(维度的层次)查看数据,钻取可以变换分析数据的粒度。钻取分为下钻(Drill-down)和上钻(Drill-up),上钻是沿着数据的维度结构向上聚合数据,在更大的粒度上查看数据的统计信息,而下钻是沿着数据的维度向下,在更小的粒度上查看更详细的数据。举个例子,当前的粒度是月份,按照 阅读全文
posted @ 2018-06-30 12:11 悦光阴 阅读(18186) 评论(0) 推荐(1)
摘要: 通常情况下,ETL方案需要同时访问两个或多个数据源,并把结果合并为单个数据流,输出到目标表中。为了向目标表中提供统一的数据结构,需要把多个数据源连接在一起。数据连接的另外一种用法,就是根据现有的数据,向目标表中添加数据,或者更新现有的数据。这种方案是把源数据与现有的数据进行比较,以便找到需要更新的数 阅读全文
posted @ 2018-06-05 17:13 悦光阴 阅读(2398) 评论(0) 推荐(3)
摘要: SSIS内置的调试工具是非常完备的,对于数据流的调试,主要是设置断点和查看变量值,这是在Package的设计阶段可以使用的工具,在Package部署到服务器之后,用户还可以使用事件处理程序以实现Package出错的自我修复,使用日志记录等来监控Package的运行状态,以记录Package出现故障时 阅读全文
posted @ 2018-05-23 17:11 悦光阴 阅读(3566) 评论(2) 推荐(3)
摘要: 本文介绍的日志不是事务日志,而是SQL Server 日志和代理的错误日志,按照主体把错误日志分为SQL Server、SQL Server Agent、Database Mail,以及 Windows NT。SQL Server使用日志记录数据库引擎启动和运行过程中产生的信息,这些信息不一定是“错 阅读全文
posted @ 2018-05-22 11:42 悦光阴 阅读(11601) 评论(2) 推荐(2)
摘要: SSIS的检查点(Checkpoint)实际上是一个用于保存Task组件的状态的文件,它记录控制流中Task组件的执行状态和变量的值。用户通过合理地配置Checkpoint,在Package运行出错之后,重新执行Package,可以跳过上一次已经成功执行的步骤,而直接从失败的地方重新执行,这就意味着 阅读全文
posted @ 2018-05-18 17:47 悦光阴 阅读(2126) 评论(2) 推荐(2)
摘要: 逻辑类型是最常用的数据类型之一,一般编程语言,例如,C#、Java和R等都支持布尔类型,用于表示逻辑真(true)和假(false),然而,SQL Server没有纯的布尔类型,但是,在编程时,可以使用bit 类型来代替逻辑类型,bit类型只有两个有效值:0 和 1。在设计数据表架构时,使用0代表逻 阅读全文
posted @ 2018-05-17 07:49 悦光阴 阅读(1134) 评论(4) 推荐(3)
摘要: 数据库是数据的仓库,用于存储数据,而存储数据需要媒介,现在的存储媒介,最常用的是硬盘,土豪一点的服务器使用固态硬盘(SSD),特殊用途的服务器使用内存。数据库最常用的存储文件是数据文件和日志文件,数据文件用于存储数据,由一个主数据文件(.mdf)和若干个辅助数据文件(.ndf)构成;日志文件用于存储 阅读全文
posted @ 2018-05-16 10:39 悦光阴 阅读(7319) 评论(6) 推荐(5)
摘要: 因子(factor)是R语言中比较特殊的一个数据类型, 它是一个用于存储类别的类型,举个例子,从性别上,可以把人分为:男人和女人,从年龄上划分,又可以把人分为:未成年人(<18岁),成年人(>=18)。R把表示分类的数据称为因子,因子的行为有时像字符串,有时像整数。因子是一个向量,通常情况下,每个元 阅读全文
posted @ 2018-05-14 13:15 悦光阴 阅读(30837) 评论(2) 推荐(2)
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 28 下一页