机器学习笔记(1) —— What's Machine Learning
Decision Tree(决策树)
![]()
Native Bayes(朴素贝叶斯)
![]()
通过已知样本特征的发生率来对新目标进行分类,如对样本分析发现邮件中包含关键字“Cheap”为垃圾邮件的概率为80%,若新邮件也包含“Cheap”关键字,则它有80%为垃圾邮件。
Linear Regression(线性回归)
Gradient Descent(梯度下降)
![]()
每次沿着最快速的一步下降,直至找到局部最优点。
About Error
![]()
使用数据点到预测直线的距离平方和来计算线性回归预测误差(最小二乘法),使用梯度下降法来缩小这个误差值。
Logistic Regression(逻辑回归)
![]()
最小化对数损失函数(log loss function),而不是错误数目来对数据点进行归类。当数据点归类错误时,误差函数对错误点进行一个大惩罚,对正确的点施加小惩罚。所有数据点的错误之和作为误差函数来计算误差值,由于有较大惩罚的误差点,移动预测直线来进行下一次归类并通过误差函数计算总体误差之和,直至归类完全正确并得到最小误差。意在使用梯度下降法找到最小化误差函数的最佳拟合线。
SVM(支持向量机)
![]()
忽略离拟合直线较远的点,它们对我们的决定并不重要,关注直线附近的点以及这些点到直线的距离。为了更好的拟合,应使点到直线的距离尽可能的并且较平均的远。因此,使用函数找到离直线距离最小的数据点,并使用梯度下降法或别的方法使该点对应的距离最大化。
Kernel Trick(核函数)
![]()
在平面内,使用一种函数区分不同类型的数据。
![]()
在三维空间中,使用平面切割平面区分数据。
核函数在SVM中具有重大作用。
Neural Network(神经网络)
![]()
Conclusion1
![]()
逻辑回归:Like a ninja ,观察数据并基于标签把它们一分为二。
支持向量机:Like a slightly pickier ninja(有些挑剔),仔细观察边界数据再基于这些划分数据。
![]()
神经网络:A group of ninja,观察标签,再基于标签将数据划分成区域。
核函数:Another ninja,将A类上升,B类下降,从而成功在中间划条线划分。
K-Means Clustering(K均值聚类)
![]()
在已知最终聚类结束时要求的聚类的数目时(如本例为3个聚类),使用K-Means可以将每一次迭代的新数据点放入各聚类中最合适最平均的地方。
Hierarchical Clustering(层次聚类)
![]()
当你不知道最终的聚类数目,但你知道数据点之间要求的最大距离时,使用层次聚类可以将本无分类的数据完成聚类。
Conclusion2
![]()

浙公网安备 33010602011771号