机器学习笔记(1) —— What's Machine Learning

Decision Tree(决策树)

Native Bayes(朴素贝叶斯)

通过已知样本特征的发生率来对新目标进行分类，如对样本分析发现邮件中包含关键字“Cheap”为垃圾邮件的概率为80%，若新邮件也包含“Cheap”关键字，则它有80%为垃圾邮件。

Linear Regression(线性回归)

Gradient Descent(梯度下降)

每次沿着最快速的一步下降，直至找到局部最优点。

About Error

使用数据点到预测直线的距离平方和来计算线性回归预测误差(最小二乘法)，使用梯度下降法来缩小这个误差值。

Logistic Regression(逻辑回归)

最小化对数损失函数(log loss function)，而不是错误数目来对数据点进行归类。当数据点归类错误时，误差函数对错误点进行一个大惩罚，对正确的点施加小惩罚。所有数据点的错误之和作为误差函数来计算误差值，由于有较大惩罚的误差点，移动预测直线来进行下一次归类并通过误差函数计算总体误差之和，直至归类完全正确并得到最小误差。意在使用梯度下降法找到最小化误差函数的最佳拟合线。

SVM(支持向量机)

忽略离拟合直线较远的点，它们对我们的决定并不重要，关注直线附近的点以及这些点到直线的距离。为了更好的拟合，应使点到直线的距离尽可能的并且较平均的远。因此，使用函数找到离直线距离最小的数据点，并使用梯度下降法或别的方法使该点对应的距离最大化。

Kernel Trick(核函数)

在平面内，使用一种函数区分不同类型的数据。

在三维空间中，使用平面切割平面区分数据。

核函数在SVM中具有重大作用。

Neural Network(神经网络)

Conclusion1

逻辑回归：Like a ninja ，观察数据并基于标签把它们一分为二。

支持向量机：Like a slightly pickier ninja(有些挑剔)，仔细观察边界数据再基于这些划分数据。

神经网络：A group of ninja，观察标签，再基于标签将数据划分成区域。

核函数：Another ninja，将A类上升，B类下降，从而成功在中间划条线划分。

K-Means Clustering(K均值聚类)

在已知最终聚类结束时要求的聚类的数目时（如本例为3个聚类），使用K-Means可以将每一次迭代的新数据点放入各聚类中最合适最平均的地方。

Hierarchical Clustering(层次聚类)

当你不知道最终的聚类数目，但你知道数据点之间要求的最大距离时，使用层次聚类可以将本无分类的数据完成聚类。

Conclusion2

posted @ 2020-06-22 15:44 CQCx64 阅读(111) 评论(0) 收藏举报

刷新页面返回顶部