Sklearn 中常见的模块和类
Sklearn 中常见的模块和类
分类(Classification)
sklearn.linear_model.LogisticRegression:逻辑回归
sklearn.svm.SVC:支持向量机分类
sklearn.neighbors.KNeighborsClassifier:K近邻分类
sklearn.ensemble.RandomForestClassifier:随机森林分类
回归(Regression)
sklearn.linear_model.LinearRegression:线性回归
sklearn.linear_model.Ridge:岭回归
sklearn.ensemble.RandomForestRegressor:随机森林回归
聚类(Clustering)
sklearn.cluster.KMeans:K均值聚类
sklearn.cluster.DBSCAN:基于密度的空间聚类
降维(Dimensionality Reduction)
sklearn.decomposition.PCA:主成分分析(PCA)
sklearn.decomposition.NMF:非负矩阵分解
模型选择(Model Selection)
sklearn.model_selection.train_test_split:将数据集划分为训练集和测试集
sklearn.model_selection.GridSearchCV:网格搜索,寻找最佳超参数
数据预处理(Preprocessing)
sklearn.preprocessing.StandardScaler:标准化
sklearn.preprocessing.MinMaxScaler:最小-最大标准化
sklearn.preprocessing.OneHotEncoder:独热编码
常用术语解释
拟合(Fit):指将模型应用于训练数据,并通过训练调整模型的参数。model.fit(X_train, y_train)
预测(Predict):根据训练好的模型,对未知数据进行预测。model.predict(X_test)
评估(Score):评估模型的性能,通常返回一个评分指标,例如准确率。model.score(X_test, y_test)
交叉验证(Cross-validation):将数据集划分为多个子集,通过多次训练和验证,评估模型的稳定性和泛化能力。
Sklearn 与其他库的关系
与 NumPy 和 SciPy 的关系:Sklearn 构建在 NumPy 和 SciPy 基础之上,因此它能够高效地处理数值计算和数组操作。
与 Pandas 的关系:Pandas 提供了强大的数据处理能力,而 Sklearn 支持从 Pandas 的 DataFrame 中直接提取数据进行模型训练和预测。
与 TensorFlow 和 PyTorch 的关系:Sklearn 主要关注传统的机器学习方法,而 TensorFlow 和 PyTorch 则更侧重于深度学习模型。尽管如此,Sklearn 与这些库可以结合使用,处理一些前期的特征工程任务,或作为基础模型与深度学习进行比较。
本文来自博客园,作者:gosamuel,转载请注明原文链接:https://www.cnblogs.com/woloveai/articles/19043392

浙公网安备 33010602011771号