摘要: 原文 | http://tecdat.cn/?p=22319 来源 | 拓端数据部落公众号 本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估。为了建立一个可靠的模型,我们还实现了一些常用的离群点检测和变量选择方法,可以去除潜在的离群点和只使用所选变量的子集来 "清洗 "你的数据。 阅读全文
posted @ 2021-05-27 21:03 拓端tecdat 阅读(777) 评论(0) 推荐(0)
摘要: 原文链接: http://tecdat.cn/?p=22181 原文出处:拓端数据部落公众号 本文考虑一下基于核方法进行分类预测。注意,在这里,我们不使用标准逻辑回归,它是参数模型。 非参数方法 用于函数估计的非参数方法大致上有三种:核方法、局部多项式方法、样条方法。非参的函数估计的优点在于稳健,对 阅读全文
posted @ 2021-05-27 20:52 拓端tecdat 阅读(243) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22302 原文出处:拓端数据部落公众号 混合效应逻辑回归用于建立二元结果变量的模型,其中,当数据被分组或同时存在固定和随机效应时,结果的对数几率被建模为预测变量的线性组合。 混合效应逻辑回归的例子 例1:一个研究人员对40所不同大学的申请进行抽样调 阅读全文
posted @ 2021-05-27 20:51 拓端tecdat 阅读(443) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22273 动机 如果你了解数据科学领域,你可能听说过LASSO。LASSO是一个对目标函数中的参数大小进行惩罚的模型,试图将不相关的变量从模型中排除。它有两个非常自然的用途,第一个是变量选择,第二个是预测。因为通常情况下,LASSO选择的变量会比普 阅读全文
posted @ 2021-05-27 20:40 拓端tecdat 阅读(229) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22226 原文出处:拓端数据部落公众号 两个随机变量之间的相依性问题备受关注,相依性(dependence)是反映两个随机变量之间关联程度的一个概念。它与相关性(correlation)有区别,常用的相关性度量是Pearson相关系数,它只度量了两 阅读全文
posted @ 2021-05-27 20:36 拓端tecdat 阅读(217) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22215 原文出处:拓端数据部落 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的。但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以使这些变量差分而平稳。这就是所谓的协整关系。由于知道这种关系可以改善分析的结果,所以希望有一个 阅读全文
posted @ 2021-05-27 20:32 拓端tecdat 阅读(427) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22206 模型背景 每一个动态现象都可以用一个潜过程(Λ(t)来描述,这个潜过程在连续的时间t内演化。当对重复测量的标志变量进行建模时,我们通常不会把它看成是一个有误差测量的潜过程。然而,这正是混合模型理论所做的基本假设。潜过程混合模型利用这个框架 阅读全文
posted @ 2021-05-27 20:30 拓端tecdat 阅读(538) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22160 这个例子展示了如何使用分位数随机林来检测异常值。分位数随机林可以检测到与给定X的Y的条件分布有关的异常值。 离群值是一些观测值,它的位置离数据集中的大多数其他观测值足够远,可以认为是异常的。离群观测的原因包括固有的变异性或测量误差。异常值 阅读全文
posted @ 2021-05-27 20:25 拓端tecdat 阅读(581) 评论(0) 推荐(0)
摘要: 原文链接: http://tecdat.cn/?p=22071 至少有两种非平稳时间序列:具有趋势的时间序列和具有单位根的时间序列(称为单整时间序列)。单位根检验不能用来评估时间序列是否平稳。它们只能检测单整时间序列。季节性单位根也是如此。 这里考虑月平均温度数据。 > mon=read.table 阅读全文
posted @ 2021-05-27 20:21 拓端tecdat 阅读(359) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22034 相信大家都听说过股票和债券的多元化投资组合。改进的股票配对交易策略基本上使用了一种前进的方法(参考文章中的概念),即最大化夏普比率,偏向于波动率而不是收益率。也就是说,它使用72天的移动窗口来最大化投资组合的不同权重配置之间的总收益,标准 阅读全文
posted @ 2021-05-27 20:20 拓端tecdat 阅读(244) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=21978 本文将介绍如何在R中用rstan和rjags做贝叶斯回归分析,R中有不少包可以用来做贝叶斯回归分析,比如最早的(同时也是参考文献和例子最多的)R2WinBUGS包。这个包会调用WinBUGS软件来拟合模型,后来的JAGS软件也使用与之类似 阅读全文
posted @ 2021-05-27 20:19 拓端tecdat 阅读(237) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22262 在讨论分类时,我们经常分析二维数据(一个自变量,一个因变量)。但在实际生活中,有更多的观察值,更多的解释变量。随着两个以上的解释变量,它开始变得更加复杂的可视化。 数据 我们使用心脏病数据,预测急诊病人的心肌梗死,包含变量: 心脏指数 心 阅读全文
posted @ 2021-05-27 20:18 拓端tecdat 阅读(214) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=22251 线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。 在讨论回归模型中的变换时,我们通常会简单地使用Box-Cox变换,或局部回归和非参数估计。 这里的要点是,在标准线性回归模型中, 阅读全文
posted @ 2021-05-27 20:16 拓端tecdat 阅读(366) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=21892 引言 多元统计分析 中,交互作用是指某因素作用随其他因素水平的不同而不同,两因素同时存在是的作用不等于两因素单独作用之和(相加交互作用)或之积(相乘交互作用)。通俗来讲就是,当两个或多个因素同时作用于一个结局时,就可能产生交互作用,又称为 阅读全文
posted @ 2021-05-27 20:14 拓端tecdat 阅读(455) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=21825 原文出处:拓端数据部落公众号 假设检验的基本原理是小概率原理,即我们认为小概率事件在一次试验中实际上不可能发生。 多重比较的问题 当同一研究问题下进行多次假设检验时,不再符合小概率原理所说的“一次试验”。如果在该研究问题下只要有检验是阳性 阅读全文
posted @ 2021-05-27 20:12 拓端tecdat 阅读(998) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=21809 如果能重来,你是否还愿意做一名护士? 要点提示 这是我们最近的一项护士职业满意度线上调查中关注的一个问题。遗憾的是,对护士工作满意的只有约27%。为何这么多人不愿意再次选择做护士?本文为探讨护士工作满意度的结构,拟对护士工作满意度的结构进 阅读全文
posted @ 2021-05-27 20:11 拓端tecdat 阅读(144) 评论(0) 推荐(0)
摘要: 原文链接:http://tecdat.cn/?p=21773 视频 在Python和R语言中建立EWMA,ARIMA模型预测时间序列 概述 学习创建时间序列预测的步骤 关注Dickey-Fuller检验和ARIMA(自回归移动平均)模型 从理论上学习这些概念以及它们在python中的实现 介绍 时间 阅读全文
posted @ 2021-05-27 20:10 拓端tecdat 阅读(453) 评论(0) 推荐(0)