ML
机器学习笔记
这是我的机器学习笔记
线性回归
分类问题
类别
回归问题
数据预测问题
各个特征的影响因素是不一样的。

拟合成一个平面
各个参数的影响因素
由于是对多重参数进行操作,具体是对矩阵进行操作。
损失函数
越小越好,越小越接近实际参数
误差
参数根据数据来组合的。
监督问题
需要直接给出指标
Scikit-learn
切割数据集
把数据集分为 8:2的集合来训练准确度。
在训练集中,
训练好后,再使用到测试集
-
训练集
-
验证集
然后使用交叉验证的方式
10把训练集分成10份,把前9分当作训练集,第10份验证不准确
所以使用交叉验证
使用1 - 9 使用 10 验证集
使用1-8,10,使用9验证
。。。
。。。
总共10次,每一次使用交叉验证。大致的每次的结果的平均值。
自我调节,交叉验证
y_train_5= (y_train == 5) y_test_5= (y_test == 5) y_train_t[:10] from sklearn.linear_model import SGDClassifier sgd_clf=SGDClassifier(mix_iter=5,random_state=42) sgd_clf.fit(X_train,y_train_5) sgd_clf.predict({X[35000]})#这是预测的值 y[35000]#这是实际的值 -
测试集
最后就是盖棺定论使用的
混淆矩阵 Confusion Matrix
不是数据集
医院1000样本,
990正常的 10带有癌症
按照找到了 990 个数据来看
准确率 Accuracy { 990/1000 =99%} 模型预测正确数量所占总量的比例 ,但是找到的样本都是正常的,无法找到患有癌症的样本,
Accuracy=$ \frac{TP+TN}{TP+TN+FP+FN}$
精确率 Precision 在被识别为正类别的样本中,为正类别的比例
d
\(Precision=\frac{TP}{TP+FP}\)
召回率 Recall { 0 / 10 =0 } 在所有正类别样本中,被正确识别的比例
找到 0 个癌症的
\(Recall= \frac{TP+TN}{TP+TN+FP+FN}\)
综合评价指标 F1-Measure
d
\(F1Measure = \frac{(a^2+1)xPxR}{a^2 \ (P + R)}\)
已知条件:班级总人数 100 人,其中男生 80 人,女生 20 人。
目标:找出所有的女生。
结果:从班级中选择了 50 人,其中 20 人是女生,还错误的把 30 名男生挑选出来了。
符合目标 才叫做 TRUE
TP : True_Positive , 做对的为 找出 女生,Positive为 找到的女生,正确的找到了的目标人数(把True[女生]当作Positive[目标]的人数),TP为20
FP: False _Positive, 错误的找到的女生,(就是找到了False[男生],当作了Positive[女生]),FP为 30
TN:True_Negative,正确的找到了男生的数量(把True的识别出Negative[男生]),TN为 100 - 50 = 50,因为目标是找到的女生,那么剩余的就是认为是男生,确实正确的
FN:False_Negative, 错误的找到的男生,这里FN=0
混淆矩阵
| TN | FP |
|---|---|
| FN | TP |
目标是找到5
TN:正确的识别非5 []
FP: 错误的找到5 []
FN: 错误的找到非5[]
TP: 正确的找到5 []
model.fit()#函数进行数据处理
机器学习流程
- 数据获取
- 特征工程
- 建立模型
- 评估与应用
特征工程的作用:
-
数据特征决定了模型的上限
-
预处理和额特征提取是最核心的。
-
算法与参数选择决定了如何逼近这个上限
怎么样选择特征
文本特征如何选取?
图像特征如何选取?
为什么需要深度学习?
学习什么样提取的特征合适的
参数传递到SVG等模型中。
输入数据
黑盒操作
输出数据
神经网络学习
特征工程 最大难度
选择哪些特征好,哪些特征更加有效
机器学习是人工选择数据,人工选择特征。
深度学习是网络自己学习特征,自己决定怎样的组合来更加符合效果

浙公网安备 33010602011771号