随笔分类 -  DataScience

摘要:案例来源:《Python数据分析与挖掘实战》第13章 案例背景与挖掘目标 输入数据: 《某市统计年鉴》(1995 2014) 挖掘目标: 1. 梳理影响地方财政收入的关键特征,分析、识别影响地方财政收入的关键特征的选择模型 2. 结合目标1的因素分析,对某市2015年的财政总收入及各个类别收入进行预 阅读全文
posted @ 2018-08-07 18:17 极客W先森 阅读(5293) 评论(0) 推荐(0)
摘要:案例来源:《Python数据分析与挖掘实战》第8章 案例背景与挖掘目标 输入数据: 挖掘目标: 1. 借助三阴乳腺癌患者的病理信息,挖掘患者的症状与中医证型之间的关联关系 2. 对截断治疗提供依据,挖掘潜性证素 3. 分析方法与过程(选择的原则) 子任务规划 1. 问卷形式收集原始数据 2. 数据预 阅读全文
posted @ 2018-08-07 18:17 极客W先森 阅读(3178) 评论(0) 推荐(0)
摘要:案例来源:《Python数据分析与挖掘实战》第7章 案例背景与挖掘目标 输入数据: 航空信息数据表(客户基本信息 + 乘机信息 + 积分信息) 挖掘目标: 1. 借助航空公司客户数据,对客户进行分类。 2. 对不同的客户类别进行特征分析,比较不同类客户的客户价值。 3. 对不同价值的客户类别提供个性 阅读全文
posted @ 2018-08-07 18:15 极客W先森 阅读(1679) 评论(0) 推荐(0)
摘要:案例来源:《Python数据分析与挖掘实战》第6章 案例背景与挖掘目标 提取窃漏电用户的关键特征,构建窃漏电用户的识别模型,自动检查、判断用户是否存在窃漏电行为。 输入数据: 用电负荷数据 终端报警信息 违约、窃电处理通知书 挖掘目标: 1. 归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型 2 阅读全文
posted @ 2018-08-07 18:14 极客W先森 阅读(1059) 评论(0) 推荐(0)
摘要:案例来源:《Python数据分析与挖掘实战》第6章 案例背景与挖掘目标 提取窃漏电用户的关键特征,构建窃漏电用户的识别模型,自动检查、判断用户是否存在窃漏电行为。 输入数据: 用电负荷数据 终端报警信息 违约、窃电处理通知书 挖掘目标: 1. 归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型 2 阅读全文
posted @ 2018-03-21 14:49 极客W先森 阅读(1041) 评论(0) 推荐(0)
摘要:Shiny是什么东东? 官方描述: Shiny is an R package that makes it easy to build interactive web apps straight from R. You can host standalone apps on a webpage or 阅读全文
posted @ 2017-12-05 16:15 极客W先森 阅读(479) 评论(0) 推荐(0)
摘要:01 Consider the mtcars data set. Fit a model with mpg as the outcome that includes number of cylinders as a factor variable and weight as confounder. 阅读全文
posted @ 2017-10-25 14:18 极客W先森 阅读(448) 评论(0) 推荐(0)
摘要:Multi variable regression analyses 如果现在我需要做一个薄荷糖和肺功能直接关系的研究,你可能会产生以下怀疑 01 很可能你会认为:吸烟者更需要薄荷糖,吸烟者肺功能较弱,这很可能是主因 02 什么说服你这样去想,你会说,如果说不吸烟的薄荷糖使用者的肺功能比不吸烟不吃薄 阅读全文
posted @ 2017-10-24 16:22 极客W先森 阅读(1392) 评论(0) 推荐(0)
摘要:观测值与预测值之间的差就是残差,残差符合正态分布 计算结果表明: Total Variation = Residual Variation + Regression Variation 总波动(Y与Y均值的平方和[方差]) = 残差波动(Y与Y观测值的差的平方和) + 回归波动(Y观测值与Y均值的差 阅读全文
posted @ 2017-10-19 10:42 极客W先森 阅读(596) 评论(0) 推荐(0)
摘要:英国统计学家弗朗西斯·高尔顿提出的高尔顿定律,结论: 身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们的父母的平均身高高。 图形展示的结果如下: 横坐标是父母的身高,纵坐标是孩子的身高。紫色小框的数据代 阅读全文
posted @ 2017-10-13 11:09 极客W先森 阅读(389) 评论(0) 推荐(0)
摘要:Residuals 残差 用最小二乘法提出两个等式 也许回归模型的关键洞见是适合他们生产高度可翻译的模型。这是与机器学习算法,它常常牺牲可解释性改善预测性能或自动化。当然,这些都是有价值的属性在他们自己的权利。然而,简单的好处,吝啬和intrepretability回归模型(和他们的亲密归纳)应该使 阅读全文
posted @ 2017-10-10 15:43 极客W先森 阅读(824) 评论(0) 推荐(0)
摘要:01 Introduction Regression toward the mean 趋均数回归 弗朗西斯·高尔顿 他在论及遗传对个体差异的影响时,首次提到了相关系数的概念。比如他研究了“居间亲”和其成年子女的身高关系,发现居间亲和其子女的身高有正相关,即父母的身材较高,其子女的身材也有较高的趋势。 阅读全文
posted @ 2017-10-09 14:56 极客W先森 阅读(385) 评论(0) 推荐(0)