数据开发_机器学习

基本问题

什么是机器学习？

机器学习要解决哪些问题？
    从复杂和海量的数据中获得洞见


机器学习的步骤有哪些？

基础

机器学习的基本概念，原理以及基本方法以及基础能力

基本概念
   属性 值  特征 
   训练集和测试集  验证集
   特征提取 特征变换 
   模型-- 模型是观察的简化
   监督和非监督学习：监督学习 半监督学习 无监督学习 强化学习
   在线学习和离线学习--是否可以增量学习

是否监督

监督学习
    线性回归 逻辑回归
	K近邻 支持向量机  决策树  随机森林 神经网络
半监督学习
    深度信念网络 DBN  --受限玻尔兹曼机RBN
无监督学习  
    聚类算法 K-Means  EM  分层聚类算法
	降维算法 PCA kernel_PCA
	可视化   t-SNE
	关联规则 Apriori  Eclat
	异常检测
强化学习  
    策略 执行 获得奖励或惩罚  升级策略

数据

 离线学习：学习过程在批量数据时，应用时，学习停止-- 需要不断训练新版本
 在线学习：--
全量学习和增量学习

泛化方式

基于实例： 基于学习示例，通过相似度等泛化到新的示例
基于模型： 构建模型，利用模型进行预测

模型

模型参数和学习算法的超参数

步骤

 学习数据-选择模型-训练模型-应用模型-评估模型
 
 评估模型- 测试与验证   训练误差和泛化误差 以及验证假设

主要的问题

数据： 训练样本不足  训练样本不具有代表性  无关特征    质量差的数据
模型： 过拟合 欠拟合
       过拟合： 模型在训练数据上表现良好，泛化效果比较不是很好
评判： 性能指标： 均方根误差  平均绝对误差
	   
参考方法“ 
    提供更好的特征， 
	选择更多参数/更强大的模型  
	减少模型中的约束

实际操作

 Pipeline 数据流水线

参考文献

     机器学习实战 Hands-on mechine Learning with

posted @ 2021-02-02 11:34 辰令阅读(127) 评论(0) 收藏举报

刷新页面返回顶部

辰令

辰时令节

数据开发_机器学习

基本问题

基础

是否监督

数据

泛化方式

模型

步骤

主要的问题

实际操作

参考文献