机器学习十讲第一讲

大数据指数据采集,数据清洗,数据分析和数据应用的整个流程中理论,技术和方法,即上述公式的整个流程

机器学习是大数据分析的核心内容,解决的是找到关联XY的模型F,从DataX的步骤通常是人工完成(特征工程)

深度学习是机器学习的一部分,核心是自动找到对特定任务有效的特征,即自动完成DataX的转换。

若Y是模拟人类的行为,则称为人工智能。

 

机器学习方法的分类

有监督学习

无监督学习

强化学习

基本概念

机器学习的一般流程

过度拟合问题

模型选择

机器学习的数学结构

 


度量结构:表示数据之间的距离

以文本处理为例:

其他常用距离:曼哈顿距离、欧式距离、极大距离

K近邻

 

K近邻:K的选择

K近邻:提高计算速度

  • K近邻算法最常用的数据结构为k-d树,它是二叉搜索树在多维空间上的扩展
  • 当落在某一个节点的超立方体中的样本数少于给定阈值时,节点便不再进一步分裂
  • 在K近邻算法中,k-d树的作用是对训练数据集构建索引,从而在预测时,能够快速找到与测试样本近似的样本

 网络结构

PageRank算法


其他数学结构

Scikit-learn

安装:

 

pip install scikit-learn

Scikit-learn的基本建模流程

Scikit-learn常用函数

  • transform 函数:数据转换
from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)
  • fit 函数:模型训练
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)
  • predict 函数:模型预测
y_pred = lr.predict(X_test)

 

posted @ 2021-01-21 23:40  谜语+  阅读(103)  评论(0编辑  收藏  举报