ML

机器学习笔记

这是我的机器学习笔记

线性回归

分类问题

类别

回归问题

数据预测问题

各个特征的影响因素是不一样的。

image-20230422102258866

拟合成一个平面

各个参数的影响因素

由于是对多重参数进行操作,具体是对矩阵进行操作。

损失函数

越小越好,越小越接近实际参数

误差

image-20230422103208478

image-20230422103340598

参数根据数据来组合的。

监督问题

需要直接给出指标

Scikit-learn

切割数据集

image-20230422122955670

把数据集分为 8:2的集合来训练准确度。

在训练集中,

训练好后,再使用到测试集

  1. 训练集

  2. 验证集

    然后使用交叉验证的方式

    10把训练集分成10份,把前9分当作训练集,第10份验证不准确

    所以使用交叉验证

    使用1 - 9 使用 10 验证集

    使用1-8,10,使用9验证

    。。。

    。。。

    总共10次,每一次使用交叉验证。大致的每次的结果的平均值。

    自我调节,交叉验证

    image-20230422123022457

    y_train_5= (y_train == 5)
    y_test_5= (y_test == 5)
    
    y_train_t[:10]
    
    from sklearn.linear_model import SGDClassifier
    sgd_clf=SGDClassifier(mix_iter=5,random_state=42)
    
    sgd_clf.fit(X_train,y_train_5)
    
    sgd_clf.predict({X[35000]})#这是预测的值
    
    y[35000]#这是实际的值
    
    
    
  3. 测试集

    最后就是盖棺定论使用的

混淆矩阵 Confusion Matrix

不是数据集

image-20230422161516625

医院1000样本,

990正常的 10带有癌症

按照找到了 990 个数据来看

准确率 Accuracy { 990/1000 =99%} 模型预测正确数量所占总量的比例 ,但是找到的样本都是正常的,无法找到患有癌症的样本,

Accuracy=$ \frac{TP+TN}{TP+TN+FP+FN}$

精确率 Precision 在被识别为正类别的样本中,为正类别的比例

d

\(Precision=\frac{TP}{TP+FP}\)

召回率 Recall { 0 / 10 =0 } 在所有正类别样本中,被正确识别的比例

找到 0 个癌症的

\(Recall= \frac{TP+TN}{TP+TN+FP+FN}\)

综合评价指标 F1-Measure

d

\(F1Measure = \frac{(a^2+1)xPxR}{a^2 \ (P + R)}\)

已知条件:班级总人数 100 人,其中男生 80 人,女生 20 人。

目标:找出所有的女生。

结果:从班级中选择了 50 人,其中 20 人是女生,还错误的把 30 名男生挑选出来了。

符合目标 才叫做 TRUE

TP : True_Positive , 做对的为 找出 女生,Positive为 找到的女生,正确的找到了的目标人数(把True[女生]当作Positive[目标]的人数),TP为20

FP: False _Positive, 错误的找到的女生,(就是找到了False[男生],当作了Positive[女生]),FP为 30

TN:True_Negative,正确的找到了男生的数量(把True的识别出Negative[男生]),TN为 100 - 50 = 50,因为目标是找到的女生,那么剩余的就是认为是男生,确实正确的

FN:False_Negative, 错误的找到的男生,这里FN=0

混淆矩阵

TN FP
FN TP

目标是找到5

TN:正确的识别非5 []

FP: 错误的找到5 []

FN: 错误的找到非5[]

TP: 正确的找到5 []

model.fit()#函数进行数据处理

机器学习流程

  1. 数据获取
  2. 特征工程
  3. 建立模型
  4. 评估与应用

特征工程的作用:

  1. 数据特征决定了模型的上限

  2. 预处理和额特征提取是最核心的。

  3. 算法与参数选择决定了如何逼近这个上限

怎么样选择特征

文本特征如何选取?
图像特征如何选取?

为什么需要深度学习?

学习什么样提取的特征合适的

参数传递到SVG等模型中。

输入数据

黑盒操作

输出数据

神经网络学习

特征工程 最大难度

选择哪些特征好,哪些特征更加有效

机器学习是人工选择数据,人工选择特征。

深度学习是网络自己学习特征,自己决定怎样的组合来更加符合效果

CNN卷积神经网络

参考链接

百度

posted @ 2023-04-22 16:55  Pengnn  阅读(67)  评论(0)    收藏  举报