机器学习笔记(1) —— What's Machine Learning

Decision Tree(决策树)

图片

Native Bayes(朴素贝叶斯)

图片

通过已知样本特征的发生率来对新目标进行分类,如对样本分析发现邮件中包含关键字“Cheap”为垃圾邮件的概率为80%,若新邮件也包含“Cheap”关键字,则它有80%为垃圾邮件。

Linear Regression(线性回归)

Gradient Descent(梯度下降)

图片

每次沿着最快速的一步下降,直至找到局部最优点。

About Error

图片

使用数据点到预测直线的距离平方和来计算线性回归预测误差(最小二乘法),使用梯度下降法来缩小这个误差值。

Logistic Regression(逻辑回归)

图片

最小化对数损失函数(log loss function),而不是错误数目来对数据点进行归类。当数据点归类错误时,误差函数对错误点进行一个大惩罚,对正确的点施加小惩罚。所有数据点的错误之和作为误差函数来计算误差值,由于有较大惩罚的误差点,移动预测直线来进行下一次归类并通过误差函数计算总体误差之和,直至归类完全正确并得到最小误差。意在使用梯度下降法找到最小化误差函数的最佳拟合线。

SVM(支持向量机)

图片

忽略离拟合直线较远的点,它们对我们的决定并不重要,关注直线附近的点以及这些点到直线的距离。为了更好的拟合,应使点到直线的距离尽可能的并且较平均的远。因此,使用函数找到离直线距离最小的数据点,并使用梯度下降法或别的方法使该点对应的距离最大化

Kernel Trick(核函数)

图片

在平面内,使用一种函数区分不同类型的数据。

图片

在三维空间中,使用平面切割平面区分数据。

核函数在SVM中具有重大作用。

Neural Network(神经网络)

图片

Conclusion1

图片

逻辑回归:Like a ninja ,观察数据并基于标签把它们一分为二。

支持向量机:Like a slightly pickier ninja(有些挑剔),仔细观察边界数据再基于这些划分数据。

图片

神经网络:A group of ninja,观察标签,再基于标签将数据划分成区域。

核函数:Another ninja,将A类上升,B类下降,从而成功在中间划条线划分。

K-Means Clustering(K均值聚类)

图片

在已知最终聚类结束时要求的聚类的数目时(如本例为3个聚类),使用K-Means可以将每一次迭代的新数据点放入各聚类中最合适最平均的地方。

Hierarchical Clustering(层次聚类)

图片

当你不知道最终的聚类数目,但你知道数据点之间要求的最大距离时,使用层次聚类可以将本无分类的数据完成聚类。

Conclusion2

图片

posted @ 2020-06-22 15:44  CQCx64  阅读(111)  评论(0)    收藏  举报