机器学习调参
摘要:参考: https://blog.csdn.net/foolsnowman/article/details/51251537
阅读全文
数据挖掘全流程
摘要:一、描述性统计分析 二、数据预处理 三、特征工程 四、建模 (1)交叉验证:训练集与测试集划分的方法 留出法:将数据集随机划分成两份,2/3数据作为训练集,1/3数据作为测试集。 k折交叉验证: 自助法: 五、评估模型 参考: https://www.cnblogs.com/codetker/p/4
阅读全文
特征工程
摘要:一.概述 特征工程包含的内容:特征提取,特征预处理,特征降维。 二.分别阐述 1.特征提取 2.特征预处理 3.特征降维 参考: https://blog.csdn.net/weixin_44432311/article/details/89599739
阅读全文
数据预处理:数据探索与数据清洗(缺失值+异常值)、数据集成+数据规约+数据变换
摘要:一.基本概述 数据探索与数据清洗没有严格的先后顺序,经常在一个阶段进行。 数据探索 数据质量分析(与数据清洗密切相关) 数据特征分析(分布/对比/周期/相关性/描述性统计分析/常见统计量等) 数据清洗 缺失值处理 异常值处理 二.数据探索 1.描述性统计分析定性变量 频率 频数 定量变量 集中趋势的
阅读全文
时间序列分析五:基于AR的多变量时序分析
摘要:一.基本概述 二.向量自回归模型(VAR) 三.结构向量自回归模型(SVAR) 四.向量误差修正模型(VECM)
阅读全文
时间序列分析四:基于回归的多变量时序分析
摘要:一.基本概述 二.含虚拟变量的回归模型 三.基于线性回归的协整和误差修正模型(ECM)
阅读全文
时间序列分析三:单变量的ARCH类模型
摘要:一.基本概述 1.单位根过程 2.趋势的类型 3.单位根检验 二.ARCH模型 1.基本形式 2.效应检验 3.模型参数估计 4.参数的检验 5.预测 三.广义ARCH模型(GARCH模型) 1.基本形式 2.效应检验 3.模型参数估计 4.参数的检验 5.预测 四.ARCH模型拓广形式 指数的GA
阅读全文
时间序列分析二:单变量的随机时序分析(ARMA模型)
摘要:一.模型的基本概述 二.随机时序模型的建立 1.模型的识别 2.模型参数的估计 3.模型的检验 4.模型的预测
阅读全文
时间序列分析一:单变量的传统时间序列分析
摘要:一.基本概述 Yt = f(Tt , St ,Ct ,It ) Tt , St ,Ct ,It 分别表示时间序列t时刻的趋势成分,季节成分,循环成分,误差和无规则成分。 趋势模型:当时间序列呈现某种上升或下降的趋势,并且无明显的季节波动时,可以以时间t综合代替所有影响因素。 季节模型: 二.趋势模型
阅读全文
时间序列分析综述
摘要:一.基本分类 1.单变量的传统时间序列分析 2.单变量的随机时间序列分析 3.多变量的时间序列分析 建立在回归基础上的两变量序列分析 建立在AR基础上的多变量序列分析 4.截面时序数据结合的分析
阅读全文
训练模型:交叉验证
摘要:一.基本概述 用交叉验证的目的是为了得到可靠稳定的模型。 消除测试集与训练集选择的不好,导致训练的模型不好。 二.k折交叉验证 K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它
阅读全文
模型建立与评估
摘要:一.基本概述 回归指标:均方误差 分类指标:准确率、召回率、精度、错误率 排序指标: 二、分类指标 (一)准确率、召回率、精度、错误率(二分类) 准确率/查准率(precision): 是针对预测为正的样本来说的,指的是预测为正的样本中预测正确了的百分比。 TPTP+FP 召回率/查全率(recal
阅读全文
降维算法一:PCA主成分分析
摘要:一.基本概述 目标:提取最有价值的信息(基于方差) 寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大 当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。 二.优化目标 将一组N维向量降为K维(
阅读全文
聚类分析
摘要:一.K-MEANS算法 (一)基本概念 无监督问题,不需要标签 难点:如何评估聚类结果,如何调参(也由于不能评估结果导致) k-means 要得到簇的个数,需要指定K值 质心:均值,即向量各维取平均即可 距离的度量:常用欧几里得距离和余弦相似度(先标准化) 优化目标:(k表示k个聚类中心,ci表示第
阅读全文
支持向量机
摘要:一.概述 原理:支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。 SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。支持向量机是一种监督式学习的方法,可广泛地应用
阅读全文
文本分析
摘要:一、文本数据预处理 语料清洗: 停用词 评论高,但不需要(如评论数据中赞、顶) 二、分词 结巴分词 三、TF-IDF计算 1.关键词提取 词频: (一般用全部次的个数) 逆文档频率: (分母+1是为了让其永远不等于0) 2.数值矩阵 四、相似度 句子——分词——语料库(词集)——词频——词频向量 1
阅读全文
贝叶斯算法
摘要:一.贝叶斯 朴素贝叶斯的思想基础:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,
阅读全文
集成(提升)算法:随机森林
摘要:一.集成算法概述 目的:让机器学习效果更好 二.集成方法(基础模型:树模型比较合适) 1.Bagging(并行) 训练多个分类器取平均,并行训练一堆分类器 随机森林 随机:数据采样随机(60%-80%有放回随机采样),特征选择随机(60%-80%有放回随机采样) 备注:每棵树数据量和特征数量相同 森
阅读全文