悦光阴

2018年12月16日

摘要： Python的变量不用声明，赋值之后就可以直接使用，类型是在运行过程中自动确定的，这就是动态类型模型。该模型把变量和对象设计成两个不同的实体，对象是存储数据的地方，对象的类型是由初始值自动决定的，而变量仅仅是对象的引用。变量是通用的，同一个变量名可以引用任何类型的对象。一，变量、对象和引用动态类阅读全文

posted @ 2018-12-16 16:08 悦光阴阅读(1622) 评论(3) 推荐(2)

2018年12月12日

物联网环境下数据分析的应用

摘要：前记：这是我老婆写的一篇文章，结合了她当前的分析工作和物联网，介绍了物联网环境下数据分析的应用。物联网概论及国内外研究现状 “物联网概念”是在“互联网概念”的基础上，将其用户端延伸和扩展到任何物品与物品之间，进行信息交换和通信的一种网络概念。物联网(Internet of Things)，国内外阅读全文

posted @ 2018-12-12 07:18 悦光阴阅读(3172) 评论(0) 推荐(5)

2018年12月11日

Python 数据类型：数值和算术操作符

摘要：算术操作符用于对数值类型进行操作，一，算术操作符 + ：加 - ：减 * ：乘 ** ：幂乘，例如，a**b，是指a的b次方 / ：除，在Python3.0中，是真除法，无论任何类型都会保持小数部分 // ：Floor除法，省略掉结果的小数部分 % ：求模，求余数二，数值类型概述 Python的阅读全文

posted @ 2018-12-11 13:08 悦光阴阅读(2581) 评论(0) 推荐(3)

2018年12月6日

写于2018年底，有点丧

摘要：致敬那些漂泊在外的务工者，你们是一群有梦想的人！ 1 现状本人沪漂一族，有次坐高铁去杭州，由于没有买到有座位的车票，想着路途不远，就买了站票。后来站累了，我发现一节特别的车厢有很多空的座位，看起来很豪华，很舒服的样子，我没多想，就径直坐了上去。坐了不一会儿，来了位美女乘务员查票，把我赶了出去，原来阅读全文

posted @ 2018-12-06 15:19 悦光阴阅读(7555) 评论(150) 推荐(102)

2018年11月26日

云计算助力大数据分析

摘要：前记：这是我老婆随手写的一篇文章，结合了她当前的分析工作和云计算，介绍了云计算对大数据分析的助力。在互联网后时代，数据分析已经成为企业保持竞争力的必要方法。企业在成长和发展的过程中积累了海量的数据，这些历史数据不管是通过纸质媒介，还是通过硬盘记录下来，都是企业宝贵的数据资产。对数据进行数字化处理，阅读全文

posted @ 2018-11-26 10:30 悦光阴阅读(1979) 评论(0) 推荐(4)

2018年10月31日

DAX：关系概述（高阶）

摘要： PowerBI的数据模型是表格模型，只能基于单个列创建关系，不支持基于多列的关系。但是，可以通过把相关的多个列组合成一个计算列，以它作为主键来创建关系。在数据模型中创建的关系，称作物理关系，物理关系会存储到数据模型中，虚拟关系只存在于DAX代码中，相比虚拟关系，利用物理关系的查询性能会更高。一，使阅读全文

posted @ 2018-10-31 18:33 悦光阴阅读(14824) 评论(0) 推荐(3)

2018年10月23日

数据分析第四篇：相关分析

摘要：相关分析是数据分析的一个基本方法，可以用于发现不同变量之间的关联性，关联是指数据之间变化的相似性，这可以通过相关系数来描述。发现相关性可以帮助你预测未来，而发现因果关系意味着你可以改变世界。一，协方差和相关系数如果随机变量X和Y是相互独立的，那么协方差 Cov(X,Y) = E{ [X-E(X) 阅读全文

posted @ 2018-10-23 10:55 悦光阴阅读(15216) 评论(4) 推荐(1)

2018年9月20日

R绘图第七篇：绘制条形图（ggplot2）

摘要：使用geom_bar()函数绘制条形图，条形图的高度通常表示两种情况之一：每组中的数据的个数，或数据框中列的值，高度表示的含义是由geom_bar()函数的参数stat决定的，stat在geom_bar()函数中有两个有效值：count和identity。默认情况下，stat="count"，这意味阅读全文

posted @ 2018-09-20 09:59 悦光阴阅读(58433) 评论(3) 推荐(7)

2018年9月19日

R实战第11篇：处理缺失值

摘要：在真实的世界中，缺失数据是经常出现的，并可能对分析的结果造成影响。在R中，经常使用VIM（Visualization and Imputation of Missing values）包来对缺失值进行可视化和插补。在使用VIM绘图时，有些绘图函数会对缺失值会自动进行插补。缺失数据的分类： MCAR 阅读全文

posted @ 2018-09-19 11:28 悦光阴阅读(8099) 评论(0) 推荐(1)

R实战第十篇：列联表和频数表

摘要：列联表是观测数据按两个或更多属性（定性变量）分类时所列出的频数分布表，它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。按两个变量交叉分类的，该列联表称为两维列联表；若按3个变量交叉分类，所得的列联表称为3维列联表，依次类推。一阅读全文

posted @ 2018-09-19 10:21 悦光阴阅读(25338) 评论(2) 推荐(1)

2018年9月18日

贝叶斯概率

摘要：贝叶斯公式：事件Bi的概率为P(Bi)，在事件Bi发生条件下事件A发生的概率为P(A│Bi)，在事件A发生条件下事件Bi发生的的概率为P(Bi│A)。贝叶斯公式也称作逆全概率公式，我对贝叶斯概率公式的理解：根据之前的经验，确定事件A是由事件B触发的，事件B有一个划分：B1、B2、...、Bn，每阅读全文

posted @ 2018-09-18 17:16 悦光阴阅读(3134) 评论(0) 推荐(0)

分析思维第三篇：数据分析的三板斧

摘要：令狐冲在华山学艺时，虽然勤学苦练，但是终不得法，在机缘巧合之下，得到风清扬老前辈的真传，练成独孤九剑之后，才名震江湖。虽然笑傲江湖的故事情节是虚构的，但从令狐冲蜕变的过程可以看出，练武需要秘籍。数据分析也有一本传世秘籍，只有六字，这就是《数据化管理》中提到的六字箴言、数据分析的三板斧：对比、细分、溯阅读全文

posted @ 2018-09-18 14:11 悦光阴阅读(2950) 评论(2) 推荐(5)

2018年9月5日

分析思维第二篇：数据指标体系

摘要：数据分析离不开对关键指标的跟踪，指标是衡量事物好坏的一个指数。数据指标有很多，然而，并不是所有的指标都是好的，虚荣指标（Vanity Metrics）看上去很美，让你感觉良好，但这类指标说到底是肤浅的，甚至带有欺诈性，例如，你会关注网站的访问量，但却忽略了跳离率、用户的浏览时间等，这很容易让你掉进虚阅读全文

posted @ 2018-09-05 10:40 悦光阴阅读(2900) 评论(0) 推荐(4)

2018年9月3日

分析思维第一篇：认识数据

摘要：数据分析，先有数据，而后有分析，认识数据是分析数据的前提。在现实世界中，数据一般都是有缺失的、异构的、有量纲的。认识数据，不仅要了解数据的属性（维）、类型和量纲，还要了解数据的分布特性。洞察数据的特征，检验数据的质量，有助于后续的分析工作，否则，没有可信的数据，数据分析的结果将是空中楼阁。一，检验阅读全文

posted @ 2018-09-03 10:10 悦光阴阅读(3572) 评论(4) 推荐(4)

2018年8月25日

数据挖掘第三篇：聚类的评估（簇数确定和轮廓系数）和可视化

摘要：在实际的聚类应用中，通常使用k-均值和k-中心化算法来进行聚类分析，这两种算法都需要输入簇数，为了保证聚类的质量，应该首先确定最佳的簇数，并使用轮廓系数来评估聚类的结果。一，k-均值法确定最佳的簇数通常情况下，使用肘方法（elbow）以确定聚类的最佳的簇数，肘方法之所以是有效的，是基于以下观察：阅读全文

posted @ 2018-08-25 15:18 悦光阴阅读(29084) 评论(2) 推荐(4)

2018年8月24日

数据挖掘第二篇：基于距离评估数据的相似性和相异性

摘要：聚类分析根据对象之间的相异程度，把对象分成多个簇，簇是数据对象的集合，聚类分析使得同一个簇中的对象相似，而与其他簇中的对象相异。相似性和相异性（dissimilarity）是根据数据对象的属性值评估的，通常涉及到距离度量。相似性（similarity）和相异性（dissimilarity）是负相关的阅读全文

posted @ 2018-08-24 09:56 悦光阴阅读(9888) 评论(1) 推荐(4)

2018年8月23日

数据挖掘第一篇：聚类分析（划分）

摘要：聚类是把一个数据集划分成多个子集的过程，每一个子集称作一个簇（Cluster），聚类使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似，由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上，不同的聚类算法可能产生不同的聚类。聚类分析用于洞察数据的分布，观察每个簇的特征，进一步分析特定簇的阅读全文

posted @ 2018-08-23 12:09 悦光阴阅读(17232) 评论(0) 推荐(2)

2018年8月20日

数据分析第三篇：数据特征分析（分布+帕累托+周期）

摘要：在数据质量得到保证的前提下，通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析（帕累托分析），分布分析能够揭示数据的分布特征和分布类型，对于定量数据，可以做出频率分布表、绘制频率分布直方图显示分布特征；对于定性数据，可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上，绘阅读全文

posted @ 2018-08-20 14:20 悦光阴阅读(9081) 评论(0) 推荐(2)

2018年8月17日

数据分析第二篇：数据特征分析（统计量分析）

摘要：对于成功的数据分析而言，把握数据整体的性质是至关重要的，使用统计量来检查数据特征，主要是检查数据的集中程度、离散程度和分布形状，通过这些统计量可以识别数据集整体上的一些重要性质，对后续的数据分析，有很大的参考作用。一，基本统计量用于描述数据的基本统计量主要分为三类，分别是中心趋势统计量、散布程度阅读全文

posted @ 2018-08-17 11:32 悦光阴阅读(18578) 评论(1) 推荐(0)

2018年8月14日

Scipy 学习第1篇：插补

摘要： scipy包提供了几种通用的插补工具，分别用于1维，2维或高维的数据集，分别是：类 interp1d 用于对一维数据进行插补类 griddata 提供了对1D，2D和高维数据进行插补的工具。 spline插补，用于对一维和二维数据进行平滑的cubic-spline 插补使用基于径向的函数（R 阅读全文

posted @ 2018-08-14 10:32 悦光阴阅读(3124) 评论(0) 推荐(0)

请不要假装很努力，因为结果不会陪你演戏。

公告