随笔分类 - 机器学习
摘要:大纲: 赛题描述==》定位机器学习问题 数据分析==》特征选择==》算法选择==》参数优化 先分类,后回归,最后将每个回归模型用不同的算法进行模型融合。 流程: 熟悉数据: 前105个特征是关于游戏属性,后三个特征分别是平均在线时长,7日付费金额,7日付费次数,需要预测的是45日付费金额。 筛选特征
阅读全文
摘要:SVM尝试寻找一个最优的决策边界 最大化margin(2d) 超参数: SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数
阅读全文
摘要:什么是决策树 什么是决策树 什么是决策树 非参数学习方法 可以解决分类问题 天然可以解决多分类问题 也可以解决回归问题 非常好的可解释性 复杂度 预测:O(logm)训练: O(n*m*logm)剪枝:降低复杂度,解决过拟合 import numpy as np import matplotlib.
阅读全文
摘要:浅层神经网络: 神经网络的输出 神经网络的输出 神经网络的输出 神经网络的输出 矩阵公式:输出=激活函数(输入x权重+偏差) 矩阵公式:输出=激活函数(输入x权重+偏差) 矩阵公式:输出=激活函数(输入x权重+偏差) 矩阵公式:输出=激活函数(输入x权重+偏差) 多层感知器识别手写数字: 关键点:
阅读全文
摘要:多项式回归:升维 多项式回归:升维 多项式回归:升维 原有数据特征下新增维度 # 数据 import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3,3,size=100) X = x.reshape(-1
阅读全文
摘要:梯度下降法 在使用梯度下降法前,最好进行数据归一化 不是一个机器学习算法 是一种基于搜索的最优化方法 作用:最小化损失函数 梯度上升法,最大化一个效用函数 η称为学习率 η的值影响获得最优解的速度 η取值不合适甚至得不到最优解 η是梯度下降法的一个超参数 优势 特征越多的情况下,梯度下降相比于正规方
阅读全文
摘要:KNN 算法介绍: 缺点: 对一个算法的掌握无非知其然,也知其所以然 使用scikit中的KNN: 自己实现KNN 分类器: 调用: 超参数和模型参数: 如何寻找好的超参数 明可夫斯基距离 当p的值为1时,则是曼哈顿距离,当p为2时则是欧拉距离 数据归一化: 测试数据归一化 使用StandardSc
阅读全文
摘要:线性回归算法介绍 线性回归算法介绍 线性回归算法介绍 线性回归算法介绍 解决回归问题 思想简单,实现容易 许多强大的非线性模型的基础 结果具有很好的解释性 蕴含机器学习中很多重要的思想 解决回归问题 思想简单,实现容易 许多强大的非线性模型的基础 结果具有很好的解释性 蕴含机器学习中很多重要的思想
阅读全文
摘要:理解算法确实是欲速则不达,唯有一步一步慢慢看懂,然后突然觉得写的真的太好了,那才是真的有所理解了。 Adaboost的两点关键点: 1. 如何根据弱模型的表现更新训练集的权重; 2. 如何根据弱模型的表现决定弱模型的话语权 算法步骤: 从训练数据中训练出一系列的弱分类器,然后把这些弱分类器集成为一个
阅读全文
摘要:机器学习可分为四大类 机器学习中的回归和分类问题 1.回归问题的应用场景 回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神
阅读全文
摘要:其实之前关于卷积整个过程一直是模棱两可,今天完全看着代码,根据自己的逻辑走了一遍,感觉有了更深一层次的理解,也在案例的基础上实现的自己的扩展。总的来说我想模型的正确性与否由三大主要影响因素构成,第一是样本,第二是模型细节,这里指的是卷积过程,节点数如何选择等等,这一块着实是一个难点,百度很久貌似也是
阅读全文
摘要:之前简单的看完视频教程,自己没有好好总结,没有去细究为什么要这样选择,只是模棱两可的灌输进去。今天小组成员大家一起讨论了一番,提出了很多细节上的问题,总结一番,发现很有收获,果然啊,一个人的思维还是太窄了。 首先先说一下案例:输入[i for i in range(15)],预测price,数据就是
阅读全文
摘要:案例: 假如你已经完成了正则化线性回归,也就是最小化 代价函数 J 的值,假如,在你得到你的学习参数以后,如果你要将你的假设函数放到一组新 的房屋样本上进行测试,结果发现在预测房价时产生了巨大的误差,如何改进这个算法。 方法:1. 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效
阅读全文
摘要:1.1分类问题 在分类问题中,你要预测的变量 y 是离散的值,我们将学习一种叫做逻辑回归 (LogisticRegression) 的算法,这是目前最流行使用最广泛的一种学习算法。 在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件
阅读全文
摘要:1.什么是无监督学习? 分类数据没有标签,也叫聚类。k-means 算法是目前最为广泛使用的聚类方法。 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。 training set {x1,x2,x3,...} 2.k
阅读全文

浙公网安备 33010602011771号