机器学习相关概念介绍

介绍

机器学习是人工智能的一部分,而深度学习又是机器学习的一部分,机器学习主要分为监督学习,无监督学习,半监督学习,增强学习4种,监督学习主要有分类问题和回归问题。

什么是机器学习

image

可以理解为最终得到的就是函数f(x)

主要任务

  • 分类
  • 回归

分类任务

二分类

  • 判断邮件是否是垃圾邮件
  • 判断发放给客户信用卡是否有风险
  • 判断病患是良性肿瘤还是恶性肿瘤
  • 判断股票是涨还是跌

多分类,很多复杂的问题都可以转换成多分类

  • 图像识别
  • 数字识别
  • 判断发放给客户信用卡的风险等级
  • 下围棋(下一步落子的位置)
  • 自动驾驶(方向盘转动的方向,油门,刹车)

总结

  • 一些算法只支持完成二分类的任务
  • 一些多分类的任务也可以转换成二分类的任务
  • 一些算法天然支持多分类的任务

image

回归任务

结果是一个连续数字的值,而非一个类别

  • 房屋价格
  • 市场分析
  • 学生成绩
  • 股票价格

总结

  • 有一些算法只能解决分类问题
  • 有一些方式只能解决回归问题
  • 还有一些既能解决分类问题,也能解决回归问题
  • 某些情况下,回归问题也可以简化为分类问题(如预测学生成绩简化为学生成绩的区间)

机器学习方法分类

监督学习

给机器的训练数据拥有标记或答案

  • 图像已经拥有了标定信息
  • 银行已经积累了一定的客户信息和他们的信用卡的信用情况
  • 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
  • 市场已经积累了房屋的基本信息和最终成交的金额

包含的算法

  • k近邻
  • 线性回归和多项式回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林

无监督学习

给机器的训练数据没有任何标记或答案

对没有标记的数据进行分类-聚类分析

  • 电商网站对用户进行分类 重视商品质量 重视性价比等

对数据进行降维处理

  • 特征提取 如信用卡的信用评级和人的体重无关
  • 特征压缩 PCA
  • 方便可视化

异常检测

半监督学习

一部分数据有标记或答案,另一部分没有。

更常见:各种原因产生的标记缺失。

通常先使用无监督学习的手段对数据做处理,之后使用监督学习的手段做模型的训练和预测。

增强学习

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式。

image

  • Google AlphaGo
  • 无人驾驶
  • 机器人

监督学习和半监督学习是基础

机器学习的其他分类

在线学习和批量学习(离线学习)

参数学习和非参数学习

批量学习

image

模型训练好之后就不变了

  • 优点:简单
  • 问题:如何适应环境变化
    解决方案:定时重新批量学习
  • 缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快的情况下,甚至是不可能的。

在线学习

image

  • 优点:及时反映新的环境变化
  • 问题:新的数据带来不好的变化?
    解决方案:加强对数据的监控
  • 其他:也适用于数据量巨大,完全无法批量学习的环境。

参数学习

image

如f(x)=ax+b,参数为a和b

非参数学习

  • 不对模型进行过多假设
  • 非参数不等于无参数

和机器学习相关的哲学是思考

数据即算法?

  • 数据确实非常重要
  • 数据驱动
  • 收集更多的数据
  • 提高数据质量
  • 提高数据的代表性
  • 研究更重要的特征

算法为王?

AlphaGo Zero

image

如何选择机器学习算法?

  • k近邻
  • 线性回归
  • 多项式回归
  • 逻辑回归
  • 模型正则化
  • PCA
  • SVM
  • 决策树
  • 随机森林
  • 集成信息
  • 模型选择
  • 模型调试

奥卡姆剃刀原则

  • 简单的就是好的
  • 在机器学习领域,什么叫简单?

没有免费的午餐定理

  • 可以严格的用数学推导出:任意两个算法,它们的期望性能是相同的。
  • 具体到某个特定问题,有些算法可能更好。
  • 但没有一种算法,绝对的比另一种算法好。
  • 脱离具体问题,谈哪个算法好是没有意义的
  • 在面对一个具体的问题时,尝试使用多种算法进行对比试验,是很有必要的。

其他思考

面对不确定的世界,怎么看待使用机器学习预测的结果?

posted @ 2023-10-01 06:58  strongmore  阅读(61)  评论(0)    收藏  举报