机器学习十讲第一讲

大数据指数据采集，数据清洗，数据分析和数据应用的整个流程中理论，技术和方法，即上述公式的整个流程

机器学习是大数据分析的核心内容，解决的是找到关联X和Y的模型F，从Data到X的步骤通常是人工完成（特征工程）

深度学习是机器学习的一部分，核心是自动找到对特定任务有效的特征，即自动完成Data到X的转换。

若Y是模拟人类的行为，则称为人工智能。

机器学习方法的分类

有监督学习

无监督学习

强化学习

基本概念

机器学习的一般流程

过度拟合问题

模型选择

机器学习的数学结构

度量结构：表示数据之间的距离

以文本处理为例：

其他常用距离：曼哈顿距离、欧式距离、极大距离

K近邻

K近邻：K的选择

K近邻：提高计算速度

K近邻算法最常用的数据结构为k-d树，它是二叉搜索树在多维空间上的扩展
当落在某一个节点的超立方体中的样本数少于给定阈值时，节点便不再进一步分裂
在K近邻算法中，k-d树的作用是对训练数据集构建索引，从而在预测时，能够快速找到与测试样本近似的样本

网络结构

PageRank算法

其他数学结构

Scikit-learn

安装：

pip install scikit-learn

Scikit-learn的基本建模流程

Scikit-learn常用函数

transform 函数：数据转换

from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

fit 函数：模型训练

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

predict 函数：模型预测

y_pred = lr.predict(X_test)

posted @ 2021-01-21 23:40 谜语+ 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部

谜语+

机器学习十讲第一讲

公告