机器学习

ML算法的分类
●有监督学习(Supervised Learning):从给定的训练数据集中学习出一个模型,当新的数据输
入时,可以根据这个模型预测结果。在监督学习中训练数据既有特征又有标签,通过训练,让机器
可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。常见
的监督问题包括回归、分类。
●无监督学习(Unsupervised Learning):与监督学习的区别是不知道数据集中数据、特征之间
的关系,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提
供基础。常见算法有聚类、降维、关联规则学习等。
●半监督学习(Semi-supervised Learning):可以处理部分标记的训练数据,通常是大量未标记
的数据和少量标记的数据,即让学习者不依赖外界交互、自动的利用未标记的样本来提升学习性能。
常用算法包括图论推理算法、拉普拉斯支持向量机等。
●强化学习(Reinforcement Learning):算法通过试错来学习如何在动态环境中做出正确的决策

 

ML分类问题
● 分类问题:
● 机器学习可以用于将数据分为不同的类别,例如将电子邮件分为垃圾邮件和非垃圾邮件,将图像
分为不同的类别(如动物、植物、风景等)。
● 算法模型:
● 逻辑回归(Logistic Regression):用于二分类问题。
● 支持向量机(Support Vector Machines, SVM):可用于分类和回归问题。
● 决策树(Decision Trees):用于分类和回归问题。
● 随机森林(Random Forest):用于分类和回归问题。
● 朴素贝叶斯(Naive Bayes):用于分类问题。
● k-近邻算法 (KNN)

 

ML回归问题
● 回归问题:
● 机器学习可以用于预测连续型数值,例如预测房价、股票价格、销售额等。
● 算法模型:
● 线性回归(Linear Regression):用于建立自变量和因变量之间的线性关系。
● 多项式回归(Polynomial Regression):用于拟合非线性关系。
● 支持向量机(Support Vector Machines, SVM):可用于分类和回归问题。
● 决策树(Decision Trees):用于分类和回归问题。
● 随机森林(Random Forest):用于分类和回归问题。

 

ML集成学习方法ensemble
● Bagging算法全称为Bootstrap Aggregation
● 每个具体的学习器所使用的数据集以放回的采样方式重新生成,也就是说,在每个学习器生成训练集时,每
个数据样本都有同样的被采样概率。训练完成后,Bagging采用投票的方式进行预测。
● RandomForestClassifier类:使用随机森林算法解决分类问题,它选择以CART决策树算法作为弱学习器,
是一种当前非常常用的机器学习算法。
● RandomForestRegressor类:使用随机森林算法解决回归问题。
● Boosting算法是一种串行集成学习方法
● 使用全部训练集进行训练,但后面学习器的训练集会受前面预测结果的影响,对于前面学习器发生预测错误
的数据,将在后面的训练中提高权值,而正确预测的数据则降低权值。
● AdaBoostRegressor类:使用AdaBoost算法解决分类问题,AdaBoost算法是最知名的Boosting算法之一。
● AdaBoostRegressor类:使用AdaBoost算法解决回归问题。

 

ML集成学习方法ensemble
● 梯度提升决策树(Gradient Boosting Decision Tree)
● 梯度提升机也是将弱预测模型(通常是决策树)进行集成的机器学习技术。它使用了梯度提升(gradient boosting)方法,这种
方法通过迭代地训练新模型来专门弥补原有模型的弱点,从而可以提升任何机器学习模型的效果。
● GradientBoostingClassifier类:使用Gradient Boosting算法解决分类问题,Gradient Boosting算法常常搭配CART决策树算
法使用,这就是有名的梯度提升树(Gradient Boosting Decision Tree, GBDT)算法。
● GradientBoostingRegressor类:使用Gradient Boosting算法解决回归问题。
●XGBoost(Exterme Gradient Boosting):一种基于决策树的集成机器学习算法,以梯度提升为框架,在处理中小型结构数据或
表格数据时表现优秀。
●LightGBM(Light Gradient Boosting Machine):由微软团队开发的一种基于梯度提升框架的机器学习算法,能够提供高效、
快速和准确的梯度提升算法实现。

 

ML集成学习方法ensemble
● Voting投票法
● VotingClassifier
● VotingRegression
● Stacking堆叠法
● StackingClassifier
● StackingRegression
● 相同的是基于多个不同的弱模型。
● 区别在于如何进行最终汇总。投票法是通过选择在大多数情况下出现的类别或根据预测结果的权重来汇总分
类器的决策结果,而堆叠法则是通过使用混合/元分类器来进行最终汇总。

 

ML聚类
● 聚类问题:
● 机器学习可以用于将数据分组为不同的簇或类,例如将客户分为不同的细分市场,将图像中的对
象分组等。
● 算法模型:
●K-Means 聚类:将数据分为 K 个簇。
●层次聚类(Hierarchical Clustering):通过构建树状图来进行聚类。
●DBSCAN 聚类:基于密度的聚类方法。

 

ML异常检测
● 异常检测:
● 机器学习可以用于检测数据中的异常值或异常情况,例如检测欺诈交易、网络攻击等。
● 算法模型:
●孤立森林(Isolation Forest):基于随机森林的异常检测算法。
●One-class SVM:用于异常检测的支持向量机算法。

 

ML推荐系统
● 推荐系统:
● 机器学习可以用于推荐产品、服务或内容给用户,例如电影推荐、音乐推荐、商品推荐等。
● 算法模型:
●协同过滤(Collaborative Filtering):基于用户和项目的相似性进行推荐。
●基于内容的推荐:根据项目的属性进行推荐。

 

DL深度学习
● 深度学习
● 自然语言处理:机器学习可以用于处理和理解自然语言,例如文本分类、情感分析、机器翻译等。
● 图像识别:机器学习可以用于识别和分类图像中的对象,例如面部识别、物体识别等。
● 语音识别:机器学习可以用于识别和转换语音为文本,例如语音助手、语音转文字等。
● 算法模型:
● 深度神经网络(DNN)
●卷积神经网络(Convolutional Neural Networks, CNN):常用于图像识别和分类。
●循环神经网络(Recurrent Neural Networks, RNN):常用于序列数据处理,如自然语言处理。

 

posted @ 2025-08-18 21:37  iTech  阅读(62)  评论(0)    收藏  举报