数据开发_机器学习

基本问题

什么是机器学习?

机器学习要解决哪些问题?
    从复杂和海量的数据中获得洞见


机器学习的步骤有哪些?

基础

机器学习的基本概念,原理以及基本方法以及基础能力

基本概念
   属性 值  特征 
   训练集和测试集  验证集
   特征提取 特征变换 
   模型-- 模型是观察的简化
   监督和非监督学习:监督学习 半监督学习 无监督学习 强化学习
   在线学习和离线学习--是否可以增量学习

是否监督

监督学习
    线性回归 逻辑回归
	K近邻 支持向量机  决策树  随机森林 神经网络
半监督学习
    深度信念网络 DBN  --受限玻尔兹曼机RBN
无监督学习  
    聚类算法 K-Means  EM  分层聚类算法
	降维算法 PCA kernel_PCA
	可视化   t-SNE
	关联规则 Apriori  Eclat
	异常检测
强化学习  
    策略 执行 获得奖励或惩罚  升级策略

数据

 离线学习:学习过程在批量数据时,应用时,学习停止-- 需要不断训练新版本
 在线学习:--
全量学习和增量学习

泛化方式

基于实例: 基于学习示例,通过相似度等泛化到新的示例
基于模型: 构建模型,利用模型进行预测

模型

模型参数和学习算法的超参数

步骤

 学习数据-选择模型-训练模型-应用模型-评估模型
 
 评估模型- 测试与验证   训练误差和泛化误差 以及验证假设

主要的问题

数据: 训练样本不足  训练样本不具有代表性  无关特征    质量差的数据
模型: 过拟合 欠拟合
       过拟合: 模型在训练数据上表现良好,泛化效果比较不是很好
评判: 性能指标: 均方根误差  平均绝对误差
	   
参考方法“ 
    提供更好的特征, 
	选择更多参数/更强大的模型  
	减少模型中的约束

实际操作

 Pipeline 数据流水线

参考文献

     机器学习实战 Hands-on mechine Learning with
posted @ 2021-02-02 11:34  辰令  阅读(105)  评论(0编辑  收藏  举报