建模/机器学习/算法 - 随笔分类 - 许愿瓶666666

摘要：参考： https://blog.csdn.net/foolsnowman/article/details/51251537 阅读全文

posted @ 2019-07-03 23:05 许愿瓶666666 阅读(153) 评论(0) 推荐(0)

摘要：一、描述性统计分析二、数据预处理三、特征工程四、建模（1）交叉验证：训练集与测试集划分的方法留出法：将数据集随机划分成两份，2/3数据作为训练集，1/3数据作为测试集。 k折交叉验证：自助法：五、评估模型参考： https://www.cnblogs.com/codetker/p/4 阅读全文

posted @ 2019-07-03 22:29 许愿瓶666666 阅读(253) 评论(0) 推荐(0)

特征工程

摘要：一.概述特征工程包含的内容：特征提取，特征预处理，特征降维。二.分别阐述 1.特征提取 2.特征预处理 3.特征降维参考： https://blog.csdn.net/weixin_44432311/article/details/89599739 阅读全文

posted @ 2019-07-02 11:05 许愿瓶666666 阅读(209) 评论(0) 推荐(0)

数据预处理：数据探索与数据清洗（缺失值+异常值）、数据集成+数据规约+数据变换

摘要：一.基本概述数据探索与数据清洗没有严格的先后顺序，经常在一个阶段进行。数据探索数据质量分析（与数据清洗密切相关）数据特征分析（分布/对比/周期/相关性/描述性统计分析/常见统计量等）数据清洗缺失值处理异常值处理二.数据探索 1.描述性统计分析定性变量频率频数定量变量集中趋势的阅读全文

posted @ 2018-06-30 13:49 许愿瓶666666 阅读(2664) 评论(0) 推荐(0)

时间序列分析六：截面数据和时序数据结合的多变量时序分析

摘要：。。。。。。。。。。。。。阅读全文

posted @ 2018-06-30 12:30 许愿瓶666666 阅读(1176) 评论(0) 推荐(0)

时间序列分析五：基于AR的多变量时序分析

摘要：一.基本概述二.向量自回归模型（VAR）三.结构向量自回归模型（SVAR）四.向量误差修正模型（VECM）阅读全文

posted @ 2018-06-30 12:29 许愿瓶666666 阅读(787) 评论(0) 推荐(0)

时间序列分析四：基于回归的多变量时序分析

摘要：一.基本概述二.含虚拟变量的回归模型三.基于线性回归的协整和误差修正模型（ECM）阅读全文

posted @ 2018-06-30 12:27 许愿瓶666666 阅读(1830) 评论(0) 推荐(0)

时间序列分析三：单变量的ARCH类模型

摘要：一.基本概述 1.单位根过程 2.趋势的类型 3.单位根检验二.ARCH模型 1.基本形式 2.效应检验 3.模型参数估计 4.参数的检验 5.预测三.广义ARCH模型（GARCH模型） 1.基本形式 2.效应检验 3.模型参数估计 4.参数的检验 5.预测四.ARCH模型拓广形式指数的GA 阅读全文

posted @ 2018-06-25 23:47 许愿瓶666666 阅读(969) 评论(0) 推荐(0)

时间序列分析二：单变量的随机时序分析（ARMA模型）

摘要：一.模型的基本概述二.随机时序模型的建立 1.模型的识别 2.模型参数的估计 3.模型的检验 4.模型的预测阅读全文

posted @ 2018-06-25 23:43 许愿瓶666666 阅读(653) 评论(0) 推荐(0)

时间序列分析一：单变量的传统时间序列分析

摘要：一.基本概述 Yt = f(Tt , St ,Ct ,It ) Tt , St ,Ct ,It 分别表示时间序列t时刻的趋势成分，季节成分，循环成分，误差和无规则成分。趋势模型：当时间序列呈现某种上升或下降的趋势，并且无明显的季节波动时，可以以时间t综合代替所有影响因素。季节模型：二.趋势模型阅读全文

posted @ 2018-06-24 15:38 许愿瓶666666 阅读(2509) 评论(0) 推荐(0)

时间序列分析综述

摘要：一.基本分类 1.单变量的传统时间序列分析 2.单变量的随机时间序列分析 3.多变量的时间序列分析建立在回归基础上的两变量序列分析建立在AR基础上的多变量序列分析 4.截面时序数据结合的分析阅读全文

posted @ 2018-06-24 15:35 许愿瓶666666 阅读(322) 评论(0) 推荐(0)

训练模型：交叉验证

摘要：一.基本概述用交叉验证的目的是为了得到可靠稳定的模型。消除测试集与训练集选择的不好，导致训练的模型不好。二.k折交叉验证 K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它阅读全文

posted @ 2018-06-23 16:40 许愿瓶666666 阅读(1931) 评论(0) 推荐(0)

模型建立与评估

摘要：一.基本概述回归指标：均方误差分类指标：准确率、召回率、精度、错误率排序指标：二、分类指标（一）准确率、召回率、精度、错误率（二分类）准确率/查准率（precision）: 是针对预测为正的样本来说的，指的是预测为正的样本中预测正确了的百分比。 TPTP+FP 召回率/查全率（recal 阅读全文

posted @ 2018-06-23 11:38 许愿瓶666666 阅读(222) 评论(0) 推荐(0)

降维分析二：LDA

摘要：基于标签进行降维阅读全文

posted @ 2018-06-23 10:11 许愿瓶666666 阅读(119) 评论(0) 推荐(0)

降维算法一：PCA主成分分析

摘要：一.基本概述目标：提取最有价值的信息（基于方差）寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大当协方差为0时，表示两个字段完全独立。为了让协方差为0，选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。二.优化目标将一组N维向量降为K维（阅读全文

posted @ 2018-06-23 10:10 许愿瓶666666 阅读(234) 评论(0) 推荐(0)

聚类分析

摘要：一.K-MEANS算法（一）基本概念无监督问题，不需要标签难点：如何评估聚类结果，如何调参（也由于不能评估结果导致） k-means 要得到簇的个数，需要指定K值质心：均值，即向量各维取平均即可距离的度量：常用欧几里得距离和余弦相似度（先标准化）优化目标：（k表示k个聚类中心，ci表示第阅读全文

posted @ 2018-06-23 09:58 许愿瓶666666 阅读(579) 评论(0) 推荐(0)

支持向量机

摘要：一.概述原理：支持向量机（Support Vector Machine, SVM）的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。 SVM是用来解决二分类问题的有监督学习算法，在引入了核方法之后SVM也可以用来解决非线性问题。支持向量机是一种监督式学习的方法，可广泛地应用阅读全文

posted @ 2018-06-18 12:35 许愿瓶666666 阅读(300) 评论(0) 推荐(0)

文本分析

摘要：一、文本数据预处理语料清洗：停用词评论高，但不需要（如评论数据中赞、顶）二、分词结巴分词三、TF-IDF计算 1.关键词提取词频：（一般用全部次的个数）逆文档频率：（分母+1是为了让其永远不等于0） 2.数值矩阵四、相似度句子——分词——语料库（词集）——词频——词频向量 1 阅读全文

posted @ 2018-06-12 23:00 许愿瓶666666 阅读(197) 评论(0) 推荐(0)

贝叶斯算法

摘要：一.贝叶斯朴素贝叶斯的思想基础：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，阅读全文

posted @ 2018-06-04 22:38 许愿瓶666666 阅读(259) 评论(0) 推荐(0)

集成（提升）算法：随机森林

摘要：一.集成算法概述目的：让机器学习效果更好二.集成方法（基础模型：树模型比较合适） 1.Bagging（并行）训练多个分类器取平均，并行训练一堆分类器随机森林随机：数据采样随机（60%-80%有放回随机采样），特征选择随机（60%-80%有放回随机采样）备注：每棵树数据量和特征数量相同森阅读全文

posted @ 2018-06-04 22:36 许愿瓶666666 阅读(252) 评论(0) 推荐(0)

随笔分类 - 建模/机器学习/算法