机器学习相关概念介绍
介绍
机器学习是人工智能的一部分,而深度学习又是机器学习的一部分,机器学习主要分为监督学习,无监督学习,半监督学习,增强学习4种,监督学习主要有分类问题和回归问题。
什么是机器学习

可以理解为最终得到的就是函数f(x)
主要任务
- 分类
- 回归
分类任务
二分类
- 判断邮件是否是垃圾邮件
- 判断发放给客户信用卡是否有风险
- 判断病患是良性肿瘤还是恶性肿瘤
- 判断股票是涨还是跌
多分类,很多复杂的问题都可以转换成多分类
- 图像识别
- 数字识别
- 判断发放给客户信用卡的风险等级
- 下围棋(下一步落子的位置)
- 自动驾驶(方向盘转动的方向,油门,刹车)
总结
- 一些算法只支持完成二分类的任务
- 一些多分类的任务也可以转换成二分类的任务
- 一些算法天然支持多分类的任务

回归任务
结果是一个连续数字的值,而非一个类别
- 房屋价格
- 市场分析
- 学生成绩
- 股票价格
总结
- 有一些算法只能解决分类问题
- 有一些方式只能解决回归问题
- 还有一些既能解决分类问题,也能解决回归问题
- 某些情况下,回归问题也可以简化为分类问题(如预测学生成绩简化为学生成绩的区间)
机器学习方法分类
监督学习
给机器的训练数据拥有标记或答案
- 图像已经拥有了标定信息
- 银行已经积累了一定的客户信息和他们的信用卡的信用情况
- 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
- 市场已经积累了房屋的基本信息和最终成交的金额
包含的算法
- k近邻
- 线性回归和多项式回归
- 逻辑回归
- SVM
- 决策树和随机森林
无监督学习
给机器的训练数据没有任何标记或答案
对没有标记的数据进行分类-聚类分析
- 电商网站对用户进行分类 重视商品质量 重视性价比等
对数据进行降维处理
- 特征提取 如信用卡的信用评级和人的体重无关
- 特征压缩 PCA
- 方便可视化
异常检测
半监督学习
一部分数据有标记或答案,另一部分没有。
更常见:各种原因产生的标记缺失。
通常先使用无监督学习的手段对数据做处理,之后使用监督学习的手段做模型的训练和预测。
增强学习
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式。

- Google AlphaGo
- 无人驾驶
- 机器人
监督学习和半监督学习是基础
机器学习的其他分类
在线学习和批量学习(离线学习)
参数学习和非参数学习
批量学习

模型训练好之后就不变了
- 优点:简单
- 问题:如何适应环境变化
解决方案:定时重新批量学习 - 缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快的情况下,甚至是不可能的。
在线学习

- 优点:及时反映新的环境变化
- 问题:新的数据带来不好的变化?
解决方案:加强对数据的监控 - 其他:也适用于数据量巨大,完全无法批量学习的环境。
参数学习

如f(x)=ax+b,参数为a和b
非参数学习
- 不对模型进行过多假设
- 非参数不等于无参数
和机器学习相关的哲学是思考
数据即算法?
- 数据确实非常重要
- 数据驱动
- 收集更多的数据
- 提高数据质量
- 提高数据的代表性
- 研究更重要的特征
算法为王?
AlphaGo Zero

如何选择机器学习算法?
- k近邻
- 线性回归
- 多项式回归
- 逻辑回归
- 模型正则化
- PCA
- SVM
- 决策树
- 随机森林
- 集成信息
- 模型选择
- 模型调试
奥卡姆剃刀原则
- 简单的就是好的
- 在机器学习领域,什么叫简单?
没有免费的午餐定理
- 可以严格的用数学推导出:任意两个算法,它们的期望性能是相同的。
- 具体到某个特定问题,有些算法可能更好。
- 但没有一种算法,绝对的比另一种算法好。
- 脱离具体问题,谈哪个算法好是没有意义的
- 在面对一个具体的问题时,尝试使用多种算法进行对比试验,是很有必要的。
其他思考
面对不确定的世界,怎么看待使用机器学习预测的结果?

浙公网安备 33010602011771号