会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
悦光阴
请不要假装很努力,因为结果不会陪你演戏。
博客园
首页
管理
上一页
1
···
9
10
11
12
13
14
15
16
17
···
28
下一页
2018年12月16日
Python 数据类型:动态类型模型
摘要: Python的变量不用声明,赋值之后就可以直接使用,类型是在运行过程中自动确定的,这就是动态类型模型。该模型把变量和对象设计成两个不同的实体,对象是存储数据的地方,对象的类型是由初始值自动决定的,而变量仅仅是对象的引用。变量是通用的,同一个变量名可以引用任何类型的对象。 一,变量、对象和引用 动态类
阅读全文
posted @ 2018-12-16 16:08 悦光阴
阅读(1622)
评论(3)
推荐(2)
2018年12月12日
物联网环境下数据分析的应用
摘要: 前记:这是我老婆写的一篇文章,结合了她当前的分析工作和物联网,介绍了物联网环境下数据分析的应用。 物联网概论及国内外研究现状 “物联网概念”是在“互联网概念”的基础上,将其用户端延伸和扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。 物联网(Internet of Things),国内外
阅读全文
posted @ 2018-12-12 07:18 悦光阴
阅读(3172)
评论(0)
推荐(5)
2018年12月11日
Python 数据类型:数值和算术操作符
摘要: 算术操作符用于对数值类型进行操作, 一,算术操作符 + :加 - :减 * :乘 ** :幂乘,例如,a**b,是指a的b次方 / :除,在Python3.0中,是真除法,无论任何类型都会保持小数部分 // :Floor除法,省略掉结果的小数部分 % :求模,求余数 二,数值类型概述 Python的
阅读全文
posted @ 2018-12-11 13:08 悦光阴
阅读(2581)
评论(0)
推荐(3)
2018年12月6日
写于2018年底,有点丧
摘要: 致敬那些漂泊在外的务工者,你们是一群有梦想的人! 1 现状 本人沪漂一族,有次坐高铁去杭州,由于没有买到有座位的车票,想着路途不远,就买了站票。后来站累了,我发现一节特别的车厢有很多空的座位,看起来很豪华,很舒服的样子,我没多想,就径直坐了上去。坐了不一会儿,来了位美女乘务员查票,把我赶了出去,原来
阅读全文
posted @ 2018-12-06 15:19 悦光阴
阅读(7555)
评论(150)
推荐(102)
2018年11月26日
云计算助力大数据分析
摘要: 前记:这是我老婆随手写的一篇文章,结合了她当前的分析工作和云计算,介绍了云计算对大数据分析的助力。 在互联网后时代,数据分析已经成为企业保持竞争力的必要方法。企业在成长和发展的过程中积累了海量的数据,这些历史数据不管是通过纸质媒介,还是通过硬盘记录下来,都是企业宝贵的数据资产。对数据进行数字化处理,
阅读全文
posted @ 2018-11-26 10:30 悦光阴
阅读(1979)
评论(0)
推荐(4)
2018年10月31日
DAX:关系概述(高阶)
摘要: PowerBI的数据模型是表格模型,只能基于单个列创建关系,不支持基于多列的关系。但是,可以通过把相关的多个列组合成一个计算列,以它作为主键来创建关系。在数据模型中创建的关系,称作物理关系,物理关系会存储到数据模型中,虚拟关系只存在于DAX代码中,相比虚拟关系,利用物理关系的查询性能会更高。 一,使
阅读全文
posted @ 2018-10-31 18:33 悦光阴
阅读(14824)
评论(0)
推荐(3)
2018年10月23日
数据分析 第四篇:相关分析
摘要: 相关分析是数据分析的一个基本方法,可以用于发现不同变量之间的关联性,关联是指数据之间变化的相似性,这可以通过相关系数来描述。发现相关性可以帮助你预测未来,而发现因果关系意味着你可以改变世界。 一,协方差和相关系数 如果随机变量X和Y是相互独立的,那么协方差 Cov(X,Y) = E{ [X-E(X)
阅读全文
posted @ 2018-10-23 10:55 悦光阴
阅读(15216)
评论(4)
推荐(1)
2018年9月20日
R绘图 第七篇:绘制条形图(ggplot2)
摘要: 使用geom_bar()函数绘制条形图,条形图的高度通常表示两种情况之一:每组中的数据的个数,或数据框中列的值,高度表示的含义是由geom_bar()函数的参数stat决定的,stat在geom_bar()函数中有两个有效值:count和identity。默认情况下,stat="count",这意味
阅读全文
posted @ 2018-09-20 09:59 悦光阴
阅读(58433)
评论(3)
推荐(7)
2018年9月19日
R实战 第11篇:处理缺失值
摘要: 在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。在R中,经常使用VIM(Visualization and Imputation of Missing values)包来对缺失值进行可视化和插补。在使用VIM绘图时,有些绘图函数会对缺失值会自动进行插补。 缺失数据的分类: MCAR
阅读全文
posted @ 2018-09-19 11:28 悦光阴
阅读(8099)
评论(0)
推荐(1)
R实战 第十篇:列联表和频数表
摘要: 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一
阅读全文
posted @ 2018-09-19 10:21 悦光阴
阅读(25338)
评论(2)
推荐(1)
2018年9月18日
贝叶斯概率
摘要: 贝叶斯公式:事件Bi的概率为P(Bi),在事件Bi发生条件下事件A发生的概率为P(A│Bi),在事件A发生条件下事件Bi发生的的概率为P(Bi│A)。 贝叶斯公式也称作逆全概率公式,我对贝叶斯概率公式的理解: 根据之前的经验,确定事件A是由事件B触发的,事件B有一个划分:B1、B2、...、Bn,每
阅读全文
posted @ 2018-09-18 17:16 悦光阴
阅读(3134)
评论(0)
推荐(0)
分析思维 第三篇:数据分析的三板斧
摘要: 令狐冲在华山学艺时,虽然勤学苦练,但是终不得法,在机缘巧合之下,得到风清扬老前辈的真传,练成独孤九剑之后,才名震江湖。虽然笑傲江湖的故事情节是虚构的,但从令狐冲蜕变的过程可以看出,练武需要秘籍。数据分析也有一本传世秘籍,只有六字,这就是《数据化管理》中提到的六字箴言、数据分析的三板斧:对比、细分、溯
阅读全文
posted @ 2018-09-18 14:11 悦光阴
阅读(2950)
评论(2)
推荐(5)
2018年9月5日
分析思维 第二篇:数据指标体系
摘要: 数据分析离不开对关键指标的跟踪,指标是衡量事物好坏的一个指数。数据指标有很多,然而,并不是所有的指标都是好的,虚荣指标(Vanity Metrics)看上去很美,让你感觉良好,但这类指标说到底是肤浅的,甚至带有欺诈性,例如,你会关注网站的访问量,但却忽略了跳离率、用户的浏览时间等,这很容易让你掉进虚
阅读全文
posted @ 2018-09-05 10:40 悦光阴
阅读(2900)
评论(0)
推荐(4)
2018年9月3日
分析思维 第一篇:认识数据
摘要: 数据分析,先有数据,而后有分析,认识数据是分析数据的前提。在现实世界中,数据一般都是有缺失的、异构的、有量纲的。认识数据,不仅要了解数据的属性(维)、类型和量纲,还要了解数据的分布特性。洞察数据的特征,检验数据的质量,有助于后续的分析工作,否则,没有可信的数据,数据分析的结果将是空中楼阁。 一,检验
阅读全文
posted @ 2018-09-03 10:10 悦光阴
阅读(3572)
评论(4)
推荐(4)
2018年8月25日
数据挖掘 第三篇:聚类的评估(簇数确定和轮廓系数)和可视化
摘要: 在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察:
阅读全文
posted @ 2018-08-25 15:18 悦光阴
阅读(29084)
评论(2)
推荐(4)
2018年8月24日
数据挖掘 第二篇:基于距离评估数据的相似性和相异性
摘要: 聚类分析根据对象之间的相异程度,把对象分成多个簇,簇是数据对象的集合,聚类分析使得同一个簇中的对象相似,而与其他簇中的对象相异。相似性和相异性(dissimilarity)是根据数据对象的属性值评估的,通常涉及到距离度量。相似性(similarity)和相异性(dissimilarity)是负相关的
阅读全文
posted @ 2018-08-24 09:56 悦光阴
阅读(9888)
评论(1)
推荐(4)
2018年8月23日
数据挖掘 第一篇:聚类分析(划分)
摘要: 聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的
阅读全文
posted @ 2018-08-23 12:09 悦光阴
阅读(17232)
评论(0)
推荐(2)
2018年8月20日
数据分析 第三篇:数据特征分析(分布+帕累托+周期)
摘要: 在数据质量得到保证的前提下,通过绘制图表、计算某些统计量等手段对数据的分布特征和贡献度进行分析(帕累托分析),分布分析能够揭示数据的分布特征和分布类型,对于定量数据,可以做出频率分布表、绘制频率分布直方图显示分布特征;对于定性数据,可用饼图和条形图显示分布情况。帕累托分析在频率分布直方图的基础上,绘
阅读全文
posted @ 2018-08-20 14:20 悦光阴
阅读(9081)
评论(0)
推荐(2)
2018年8月17日
数据分析 第二篇:数据特征分析(统计量分析)
摘要: 对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很大的参考作用。 一,基本统计量 用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度
阅读全文
posted @ 2018-08-17 11:32 悦光阴
阅读(18578)
评论(1)
推荐(0)
2018年8月14日
Scipy 学习 第1篇:插补
摘要: scipy包提供了几种通用的插补工具,分别用于1维,2维或高维的数据集,分别是: 类 interp1d 用于对一维数据进行插补 类 griddata 提供了对1D,2D和高维数据进行插补的工具。 spline插补, 用于对一维和二维数据进行平滑的cubic-spline 插补 使用基于径向的函数(R
阅读全文
posted @ 2018-08-14 10:32 悦光阴
阅读(3124)
评论(0)
推荐(0)
上一页
1
···
9
10
11
12
13
14
15
16
17
···
28
下一页
公告