ML

机器学习笔记

这是我的机器学习笔记

线性回归

分类问题

类别

回归问题

数据预测问题

各个特征的影响因素是不一样的。

拟合成一个平面

各个参数的影响因素

由于是对多重参数进行操作，具体是对矩阵进行操作。

损失函数

越小越好，越小越接近实际参数

误差

参数根据数据来组合的。

监督问题

需要直接给出指标

Scikit-learn

切割数据集

把数据集分为 8：2的集合来训练准确度。

在训练集中，

训练好后，再使用到测试集

训练集
验证集

然后使用交叉验证的方式

10把训练集分成10份，把前9分当作训练集，第10份验证不准确

所以使用交叉验证

使用1 - 9 使用 10 验证集

使用1-8，10，使用9验证

。。。

。。。

总共10次，每一次使用交叉验证。大致的每次的结果的平均值。

自我调节，交叉验证
```
y_train_5= (y_train == 5)
y_test_5= (y_test == 5)

y_train_t[:10]

from sklearn.linear_model import SGDClassifier
sgd_clf=SGDClassifier(mix_iter=5,random_state=42)

sgd_clf.fit(X_train,y_train_5)

sgd_clf.predict({X[35000]})#这是预测的值

y[35000]#这是实际的值
```
测试集

最后就是盖棺定论使用的

混淆矩阵 Confusion Matrix

不是数据集

医院1000样本，

990正常的 10带有癌症

按照找到了 990 个数据来看

准确率 Accuracy { 990/1000 =99%} 模型预测正确数量所占总量的比例 ,但是找到的样本都是正常的，无法找到患有癌症的样本,

Accuracy=$ \frac{TP+TN}{TP+TN+FP+FN}$

精确率 Precision 在被识别为正类别的样本中，为正类别的比例

d

$Precision=\frac{TP}{TP+FP}$

召回率 Recall { 0 / 10 =0 } 在所有正类别样本中，被正确识别的比例

找到 0 个癌症的

$Recall= \frac{TP+TN}{TP+TN+FP+FN}$

综合评价指标 F1-Measure

d

$F1Measure = \frac{(a^2+1)xPxR}{a^2 \ (P + R)}$

已知条件：班级总人数 100 人，其中男生 80 人，女生 20 人。

目标：找出所有的女生。

结果：从班级中选择了 50 人，其中 20 人是女生，还错误的把 30 名男生挑选出来了。

符合目标才叫做 TRUE

TP : True_Positive , 做对的为找出女生，Positive为找到的女生，正确的找到了的目标人数（把True[女生]当作Positive[目标]的人数），TP为20

FP： False _Positive, 错误的找到的女生，（就是找到了False[男生],当作了Positive[女生]),FP为 30

TN：True_Negative，正确的找到了男生的数量(把True的识别出Negative[男生])，TN为 100 - 50 = 50，因为目标是找到的女生，那么剩余的就是认为是男生，确实正确的

FN：False_Negative, 错误的找到的男生，这里FN=0

混淆矩阵

TN	FP
FN	TP

目标是找到5

TN：正确的识别非5 []

FP：错误的找到5 []

FN：错误的找到非5[]

TP：正确的找到5 []

model.fit()#函数进行数据处理

机器学习流程

数据获取
特征工程
建立模型
评估与应用

特征工程的作用：

数据特征决定了模型的上限
预处理和额特征提取是最核心的。
算法与参数选择决定了如何逼近这个上限

怎么样选择特征

文本特征如何选取？
图像特征如何选取？

为什么需要深度学习？

学习什么样提取的特征合适的

参数传递到SVG等模型中。

输入数据

黑盒操作

输出数据

神经网络学习

特征工程最大难度

选择哪些特征好，哪些特征更加有效

机器学习是人工选择数据，人工选择特征。

深度学习是网络自己学习特征，自己决定怎样的组合来更加符合效果

CNN卷积神经网络

参考链接

百度

posted @ 2023-04-22 16:55 Pengnn 阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

Pengyic

ML