上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 28 下一页
摘要: Python的变量不用声明,赋值之后就可以直接使用,类型是在运行过程中自动确定的,这就是动态类型模型。该模型把变量和对象设计成两个不同的实体,对象是存储数据的地方,对象的类型是由初始值自动决定的,而变量仅仅是对象的引用。变量是通用的,同一个变量名可以引用任何类型的对象。 一,变量、对象和引用 动态类 阅读全文
posted @ 2018-12-16 16:08 悦光阴 阅读(1622) 评论(3) 推荐(2)
摘要: 前记:这是我老婆写的一篇文章,结合了她当前的分析工作和物联网,介绍了物联网环境下数据分析的应用。 物联网概论及国内外研究现状 “物联网概念”是在“互联网概念”的基础上,将其用户端延伸和扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。 物联网(Internet of Things),国内外 阅读全文
posted @ 2018-12-12 07:18 悦光阴 阅读(3172) 评论(0) 推荐(5)
摘要: 算术操作符用于对数值类型进行操作, 一,算术操作符 + :加 - :减 * :乘 ** :幂乘,例如,a**b,是指a的b次方 / :除,在Python3.0中,是真除法,无论任何类型都会保持小数部分 // :Floor除法,省略掉结果的小数部分 % :求模,求余数 二,数值类型概述 Python的 阅读全文
posted @ 2018-12-11 13:08 悦光阴 阅读(2581) 评论(0) 推荐(3)
摘要: 致敬那些漂泊在外的务工者,你们是一群有梦想的人! 1 现状 本人沪漂一族,有次坐高铁去杭州,由于没有买到有座位的车票,想着路途不远,就买了站票。后来站累了,我发现一节特别的车厢有很多空的座位,看起来很豪华,很舒服的样子,我没多想,就径直坐了上去。坐了不一会儿,来了位美女乘务员查票,把我赶了出去,原来 阅读全文
posted @ 2018-12-06 15:19 悦光阴 阅读(7555) 评论(150) 推荐(102)
摘要: 前记:这是我老婆随手写的一篇文章,结合了她当前的分析工作和云计算,介绍了云计算对大数据分析的助力。 在互联网后时代,数据分析已经成为企业保持竞争力的必要方法。企业在成长和发展的过程中积累了海量的数据,这些历史数据不管是通过纸质媒介,还是通过硬盘记录下来,都是企业宝贵的数据资产。对数据进行数字化处理, 阅读全文
posted @ 2018-11-26 10:30 悦光阴 阅读(1979) 评论(0) 推荐(4)
摘要: PowerBI的数据模型是表格模型,只能基于单个列创建关系,不支持基于多列的关系。但是,可以通过把相关的多个列组合成一个计算列,以它作为主键来创建关系。在数据模型中创建的关系,称作物理关系,物理关系会存储到数据模型中,虚拟关系只存在于DAX代码中,相比虚拟关系,利用物理关系的查询性能会更高。 一,使 阅读全文
posted @ 2018-10-31 18:33 悦光阴 阅读(14824) 评论(0) 推荐(3)
摘要: 相关分析是数据分析的一个基本方法,可以用于发现不同变量之间的关联性,关联是指数据之间变化的相似性,这可以通过相关系数来描述。发现相关性可以帮助你预测未来,而发现因果关系意味着你可以改变世界。 一,协方差和相关系数 如果随机变量X和Y是相互独立的,那么协方差 Cov(X,Y) = E{ [X-E(X) 阅读全文
posted @ 2018-10-23 10:55 悦光阴 阅读(15216) 评论(4) 推荐(1)
摘要: 使用geom_bar()函数绘制条形图,条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在geom_bar()函数中有两个有效值:count和identity。默认情况下,stat="count",这意味 阅读全文
posted @ 2018-09-20 09:59 悦光阴 阅读(58433) 评论(3) 推荐(7)
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。在R中,经常使用VIM(Visualization and Imputation of Missing values)包来对缺失值进行可视化和插补。在使用VIM绘图时,有些绘图函数会对缺失值会自动进行插补。 缺失数据的分类: MCAR 阅读全文
posted @ 2018-09-19 11:28 悦光阴 阅读(8099) 评论(0) 推荐(1)
摘要: 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一 阅读全文
posted @ 2018-09-19 10:21 悦光阴 阅读(25338) 评论(2) 推荐(1)
摘要: 贝叶斯公式:事件Bi的概率为P(Bi),在事件Bi发生条件下事件A发生的概率为P(A│Bi),在事件A发生条件下事件Bi发生的的概率为P(Bi│A)。 贝叶斯公式也称作逆全概率公式,我对贝叶斯概率公式的理解: 根据之前的经验,确定事件A是由事件B触发的,事件B有一个划分:B1、B2、...、Bn,每 阅读全文
posted @ 2018-09-18 17:16 悦光阴 阅读(3134) 评论(0) 推荐(0)
摘要: 令狐冲在华山学艺时,虽然勤学苦练,但是终不得法,在机缘巧合之下,得到风清扬老前辈的真传,练成独孤九剑之后,才名震江湖。虽然笑傲江湖的故事情节是虚构的,但从令狐冲蜕变的过程可以看出,练武需要秘籍。数据分析也有一本传世秘籍,只有六字,这就是《数据化管理》中提到的六字箴言、数据分析的三板斧:对比、细分、溯 阅读全文
posted @ 2018-09-18 14:11 悦光阴 阅读(2950) 评论(2) 推荐(5)
摘要: 数据分析离不开对关键指标的跟踪,指标是衡量事物好坏的一个指数。数据指标有很多,然而,并不是所有的指标都是好的,虚荣指标(Vanity Metrics)看上去很美,让你感觉良好,但这类指标说到底是肤浅的,甚至带有欺诈性,例如,你会关注网站的访问量,但却忽略了跳离率、用户的浏览时间等,这很容易让你掉进虚 阅读全文
posted @ 2018-09-05 10:40 悦光阴 阅读(2900) 评论(0) 推荐(4)
摘要: 数据分析,先有数据,而后有分析,认识数据是分析数据的前提。在现实世界中,数据一般都是有缺失的、异构的、有量纲的。认识数据,不仅要了解数据的属性(维)、类型和量纲,还要了解数据的分布特性。洞察数据的特征,检验数据的质量,有助于后续的分析工作,否则,没有可信的数据,数据分析的结果将是空中楼阁。 一,检验 阅读全文
posted @ 2018-09-03 10:10 悦光阴 阅读(3572) 评论(4) 推荐(4)
摘要: 在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察: 阅读全文
posted @ 2018-08-25 15:18 悦光阴 阅读(29084) 评论(2) 推荐(4)
摘要: 聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异。相似性和相异性(dissimilarity)是根据数据对象的属性值评估的,通常涉及到距离度量。相似性(similarity)和相异性(dissimilarity)是负相关的 阅读全文
posted @ 2018-08-24 09:56 悦光阴 阅读(9888) 评论(1) 推荐(4)
摘要: 聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的 阅读全文
posted @ 2018-08-23 12:09 悦光阴 阅读(17232) 评论(0) 推荐(2)
摘要: 在数据质量得到保证的前提下,通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析(帕累托分析),分布分析能够揭示数据的分布特征和分布类型,对于定量数据,可以做出频率分布表、绘制频率分布直方图显示分布特征;对于定性数据,可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上,绘 阅读全文
posted @ 2018-08-20 14:20 悦光阴 阅读(9081) 评论(0) 推荐(2)
摘要: 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很大的参考作用。 一,基本统计量 用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度 阅读全文
posted @ 2018-08-17 11:32 悦光阴 阅读(18578) 评论(1) 推荐(0)
摘要: scipy包提供了几种通用的插补工具,分别用于1维,2维或高维的数据集,分别是: 类 interp1d 用于对一维数据进行插补 类 griddata 提供了对1D,2D和高维数据进行插补的工具。 spline插补, 用于对一维和二维数据进行平滑的cubic-spline 插补 使用基于径向的函数(R 阅读全文
posted @ 2018-08-14 10:32 悦光阴 阅读(3124) 评论(0) 推荐(0)
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 28 下一页