Fork me on GitHub

随笔分类 -  统计---机器学习

摘要:什么是时序数据 时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同类的,要求具有可比性。简单的来说,就是按照时间为索引的数据列。 如何使用时序数据 对时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性,基于规律构建时间序列模型,进行 阅读全文
posted @ 2020-02-26 19:46 顾鹏pen 阅读(6413) 评论(0) 推荐(0)
摘要:1. 决策树的定义 2. 决策树的分支:分类与回归 3. 随机森林软件隔支持向量机 4. 决策树处理缺失数据 5. 决策树的剪枝 1. 决策树的定义 决策树,顾名思义,就是用来决策的树,通常来说,决策树分为C4.5,CART等,其实他们都是一个东西,区别就是在于他们的分支方法不同。决策树我们只要理解 阅读全文
posted @ 2019-05-30 16:20 顾鹏pen 阅读(2422) 评论(0) 推荐(0)
摘要:1.数据处理的主要操作 2.离散化与连续化 3.特征提取与构造 4.数据选择与构造 5.缺失值的处理 6.多重共线性和内生性 1. 数据处理的主要操作 映射与收集数据 :我们获得数据后需要对数据的每一列都定义属性,这样才方便我们接下来的数据处理。 缩放大型数据:对于使用数据不一定要全部使用,我们应该 阅读全文
posted @ 2019-03-17 20:19 顾鹏pen 阅读(5400) 评论(0) 推荐(0)
摘要:1. 看待机器学习问题的两个角度 2.假设检验的思路 3.模型陷阱与模型幻觉 4.二元分类的原理 5.ROC与AUC曲线 1. 看待机器学习问题的两个角度 在看待一个数据问题时,我们需要从两个角度去看待问题,一是从机器学习角度去看待问题,另一个就是从概率的角度看待问题,这样我觉得可以解释很多初学者在 阅读全文
posted @ 2019-03-10 19:28 顾鹏pen 阅读(574) 评论(1) 推荐(0)
摘要:1. SVM的最优化问题 2.拉格朗日乘数法,对偶条件KKT条件 3.软件隔支持向量机 4.非线性支持向量机,核函数 5.SMO算法 1. SVM的最优化问题 支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大 阅读全文
posted @ 2019-02-13 13:46 顾鹏pen 阅读(699) 评论(0) 推荐(0)
摘要:1. 感知器的介绍 2.感知器的算法 3.感知器的更新规则 4.感知器的收敛性 5.感知器的局限性 6.参考文献 1. 感知器的介绍 感知器学习算法(PLA:Perception Learning Algorithm)是1957年提出的算法,比svm要早,实际上他是一种二分类问题的超平面(超平面是比 阅读全文
posted @ 2019-01-27 14:06 顾鹏pen 阅读(566) 评论(0) 推荐(0)