datawhale吃瓜教程task1
datawhale吃瓜教程task1
任务目标:
西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看,这些知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:
第1章:【1.4-归纳偏好】可以跳过
第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过
第1章:绪论
1.1 绪论
机器学习:研究在计算机上从数据产生模型的算法
模型:学到的结果
模式:局部结果(如一条规则)
1.2 基本术语
dataset:数据集
sample:样本
feature/attribute:特征属性
tensor:张量=sample space:属性空间
feature vector:特征向量
多少个特征就有多少个维度
label:标签
classification:分类(离散的)
regression:回归(连续的)——二者在深度学习中可以通过softmax函数把多分类输出值转换为[0,1]中的概率分布
clustering:聚类(无监督学习,事先没有label)
generalization:泛化(在训练集中没出现的样本上效果很好)——这要求训练集能够尽可能代表整个样本空间,可以靠增加样本数量来解决哈哈
1.3 假设空间
所以可能的特征的样本数总和,包含未知值
1.4 归纳学习
跳过
1.5 发展历程
逻辑推理
知识工程(人把知识总结给计算机)
机器学习(计算机自己学习知识):
- 决策树
- 神经网络(BP反向传播)
- 支持向量机(kernel function)
- 深度学习——数据多了,计算能力变强
1.6 应用现状
- 计算机视觉
- 自然语言处理
- 推荐系统
- 生物信息学
- 量化交易
- 搜索引擎
- 自动驾驶
- 神经网络模拟大脑了解其工作机制——浙大课题
- etc.
1.7 阅读材料
机器学习
会议
-
最重要:ICML,NIPS,COLT
-
区域性:ECML,ACML
期刊
- Journal of Machine Learning Reasearch, Machine Learning
深度学习
- AI:IJCAI,AAAI, Artificial Intelligence
- Data mining:KDD, ICDM,
- CV:CVPR
- NN: Neural Computation
- Statistics: Annals of Statistics
习题
1.1
3+3+1=7种
把所有和正例符合的加上,减去所有和负例符合的
1.2
1.3
1.4
1.5
推荐系统被用于根据用户的个人数据给出用户可能关心的
语音可以转文字,声音识别
搜索图像
还有怎么能够提取出用户输入文本中真正想要搜索的信息
第2章 模型评估与选择
2.1 经验误差与过拟合
错误率(error rate)
精度(acuuracy)
过拟合:把训练集和真实情况不一样的特征都学习了,不可避免,只能缓解
欠拟合:好解决,神经网络增加层数,决策树增加分支, 总的来说就是提升模型的学习能力
2.2 评估方法
通过测试集来评估模型,要和训练集互斥
-
留出法(hold-out)
直接划分训练集和测试集,但是两者的label种类比例应当尽可能一样
评价时考虑多次随机划分用于评估取平均值
训练集和测试集的比例没有完美的解决方案,常见2/3——4/5
-
交叉验证法(cross valiadation)
先将数据集划分为k个大小相似的互斥子集(即为k-fold)
每次取出一个子集作为测试集,剩下是
留一法——每个子集一个样本,被认为是比较准确的
特点:计算量比较大
-
自助法(bootstrapping)
可能有有一些样本在测试集众多此出现
适用于数据集较小的时候,也能从初始数据集中产生多个不同的训练集,但是改变了初始数据集的分布
-
调参与最后模型
参数(parameter)
调参(parameter tuning)
对每个参数选定范围和步长 autogulon
基于验证集上的性能来进行模型选择和调参
2.3 性能度量
性能度量(performance measure)
回归任务最常用的是均方误差
-
错误率与精度
-
查准率(precision),查全率(recall),F1,混淆矩阵(confusion matrix)
P=TP(true positive)/TP+FP
R=TP/TP+FN(false negative)
两者是矛盾的度量,通常一项高另一项就会低
可以通过绘制PR图比较模型的
平衡点——BEP(Break-Event Point):recall=precision时的值
也可以用F1度量:2xPxR/(P+R)
F1的一般度量形式:可以通过调整B表达出对recall和precision的不同偏好
宏查准率(macro-P),宏查全率(macro-R),宏F1(macro-F1):在各混淆矩阵上计算查准率和查全率后计算平均值
微查准率(micro-P)、微查全率(micro-R)、微F1(micro-F1):将各混淆矩阵值平均,求出TP/FP、TN、FN的平均值后计算recall和precision
-
ROC与AUC
ROC(Reciever Operating Characteristic):ROC曲线以FPR为横轴,TPR为纵轴,通过调节分类阈值来绘制图像
TRP(True Positive rate)真正例率
TP/(TP+FN)
FRP(False Positive rate)假正例率
FP/(TN+FP)
AUC(Area Under ROC Curve): ROC曲线下的面积
- 代价敏感错误率与代价曲线
对预测错误损失的加权
2.4 比较检验
先跳过了,概率论有点儿复杂
2.5 偏差与方差
同跳过,公式有些迷糊,时间也有点来不及
2.6 阅读材料
看了一遍了解各概念被提出的时间和历史