datawhale吃瓜教程task1

datawhale吃瓜教程task1

任务目标:

西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看,这些知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:

第1章:【1.4-归纳偏好】可以跳过

第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过

第1章:绪论

1.1 绪论

机器学习:研究在计算机上从数据产生模型的算法

模型:学到的结果

模式:局部结果(如一条规则)

1.2 基本术语

dataset:数据集

sample:样本

feature/attribute:特征属性

tensor:张量=sample space:属性空间

feature vector:特征向量

多少个特征就有多少个维度

label:标签

classification:分类(离散的)

regression:回归(连续的)——二者在深度学习中可以通过softmax函数把多分类输出值转换为[0,1]中的概率分布

clustering:聚类(无监督学习,事先没有label)

generalization:泛化(在训练集中没出现的样本上效果很好)——这要求训练集能够尽可能代表整个样本空间,可以靠增加样本数量来解决哈哈

1.3 假设空间

所以可能的特征的样本数总和,包含未知值

1.4 归纳学习

跳过

1.5 发展历程

逻辑推理

知识工程(人把知识总结给计算机)

机器学习(计算机自己学习知识):

  1. 决策树
  2. 神经网络(BP反向传播)
  3. 支持向量机(kernel function)
  4. 深度学习——数据多了,计算能力变强

1.6 应用现状

  • 计算机视觉
  • 自然语言处理
  • 推荐系统
  • 生物信息学
  • 量化交易
  • 搜索引擎
  • 自动驾驶
  • 神经网络模拟大脑了解其工作机制——浙大课题
  • etc.

1.7 阅读材料

机器学习

会议

  1. 最重要:ICML,NIPS,COLT

  2. 区域性:ECML,ACML

期刊

  1. Journal of Machine Learning Reasearch, Machine Learning
深度学习
  1. AI:IJCAI,AAAI, Artificial Intelligence
  2. Data mining:KDD, ICDM,
  3. CV:CVPR
  4. NN: Neural Computation
  5. Statistics: Annals of Statistics

习题

1.1

3+3+1=7种

把所有和正例符合的加上,减去所有和负例符合的

1.2

1.3

1.4

1.5

推荐系统被用于根据用户的个人数据给出用户可能关心的

语音可以转文字,声音识别

搜索图像

还有怎么能够提取出用户输入文本中真正想要搜索的信息

第2章 模型评估与选择

2.1 经验误差与过拟合

错误率(error rate)

精度(acuuracy)

过拟合:把训练集和真实情况不一样的特征都学习了,不可避免,只能缓解

欠拟合:好解决,神经网络增加层数,决策树增加分支, 总的来说就是提升模型的学习能力

2.2 评估方法

通过测试集来评估模型,要和训练集互斥

  1. 留出法(hold-out)

直接划分训练集和测试集,但是两者的label种类比例应当尽可能一样

评价时考虑多次随机划分用于评估取平均值

训练集和测试集的比例没有完美的解决方案,常见2/3——4/5

  1. 交叉验证法(cross valiadation)

先将数据集划分为k个大小相似的互斥子集(即为k-fold)

每次取出一个子集作为测试集,剩下是

留一法——每个子集一个样本,被认为是比较准确的

特点:计算量比较大

  1. 自助法(bootstrapping)

可能有有一些样本在测试集众多此出现

适用于数据集较小的时候,也能从初始数据集中产生多个不同的训练集,但是改变了初始数据集的分布

  1. 调参与最后模型

参数(parameter)

调参(parameter tuning)

对每个参数选定范围和步长 autogulon

基于验证集上的性能来进行模型选择和调参

2.3 性能度量

性能度量(performance measure)

回归任务最常用的是均方误差

  1. 错误率与精度

  2. 查准率(precision),查全率(recall),F1,混淆矩阵(confusion matrix)

    P=TP(true positive)/TP+FP

    R=TP/TP+FN(false negative)

    两者是矛盾的度量,通常一项高另一项就会低

    可以通过绘制PR图比较模型的

    平衡点——BEP(Break-Event Point):recall=precision时的值

    也可以用F1度量:2xPxR/(P+R)

    F1的一般度量形式:可以通过调整B表达出对recall和precision的不同偏好

    image-20220111155614459

    宏查准率(macro-P),宏查全率(macro-R),宏F1(macro-F1):在各混淆矩阵上计算查准率和查全率后计算平均值

    image-20220111160205835

    微查准率(micro-P)、微查全率(micro-R)、微F1(micro-F1):将各混淆矩阵值平均,求出TP/FP、TN、FN的平均值后计算recall和precision

  3. ROC与AUC

ROC(Reciever Operating Characteristic):ROC曲线以FPR为横轴,TPR为纵轴,通过调节分类阈值来绘制图像

TRP(True Positive rate)真正例率

TP/(TP+FN)

FRP(False Positive rate)假正例率

FP/(TN+FP)

AUC(Area Under ROC Curve): ROC曲线下的面积

  1. 代价敏感错误率与代价曲线

对预测错误损失的加权

2.4 比较检验

先跳过了,概率论有点儿复杂

2.5 偏差与方差

同跳过,公式有些迷糊,时间也有点来不及

2.6 阅读材料

看了一遍了解各概念被提出的时间和历史

习题

posted @ 2022-01-12 00:36  ytttttt桃  阅读(104)  评论(0)    收藏  举报