初识机器学习——概念介绍（imooc笔记）

前言

imooc的机器学习一个最基本的介绍类课程，http://www.imooc.com/learn/717 ,不怎么涉及具体的算法或实现，只是讲了讲一些理论概念。

概述

机器学习：
利用计算机从历史数据中找到规律，并把这些规律用到对未来不确定场景的决策。

主体的不同：
计算机--机器学习。
人--数据分析。
数据分析是依靠人从历史数据中找到规，学习效果很大程度以来于人的经验与知识水平；
机器学习就是想要抛弃对人的依赖，靠机器来挖掘规律。

机器学习与统计学

《概率论》《数据统计》是机器学习的基石
传统的统计学，抽取一定量的样本然后进行概率统计，然后得到结论之后进行假设检验
传统的统计学受运算能力的限制，所以是用抽样的方式；
现在计算能力足够强，就不需要采用抽样的方式了。

典型应用

关联规则：比如“啤酒和纸尿裤”——购物篮分析（其实是数据挖掘）
聚类：比如用户群体细分
朴素贝叶斯：垃圾邮件
决策树：银行信贷风险识别
ctr预估：搜索引擎互联网广告
协同过滤：推荐系统
自然语言处理：情感分析、实体识别
深度学习：图像识别

数据分析 vs 机器学习的不同

数据的特点

①交易数据vs行为数据

数据分析处理的是交易数据，机器学习处理的是行为数据。
交易数据：存取款账单、用户订单、话费账单...与钱有关的数据。对数据一致性要求很高，应该放在关系型数据库中。
行为数据：搜索历史、点击历史、浏览历史、评论...对数据一致性要求不是很高，放在NoSQL数据库中。

②少量数据vs海量数据
③采样分析vs全量分析

NoSQL：只能处理行为数据，不能处理交易数据。强调分布式、CAP，保证数据吞吐量的前提下，在数据的一致性上打折扣。

解决业务问题不同

数据分析，报告历史上发生的事情。
机器学习：通过历史上发生的事情，来预测未来的事情。

技术手段不同

数据分析：分析方式是用户（数据分析师）驱动的，交互式分析。分析能力受限于数据分析师的能力，数据属性和维度很有限。
机器学习：分析方式是数据驱动的，自动进行知识发现。数据属性和维度数量级很大。

参与者不同

数据分析，分析师能力决定结果，目标用户是公司高层。
机器学习，数据质量决定结果，目标用户是个体。

对常用算法的分类方式

算法分类1：有监督学习和无监督学习
算法分类2：分类与回归、聚类、标注
算法分类3（重要，直指本质）
生成模型：用来说明分类问题。返回的是属于各个类的概率。
判别模型：用来说明分类问题。直接给一个函数，数据输入到函数中，直接返回类别。

机器学习解决问题的步骤

确定目标：
由业务需求，确定要解决的问题，收集数据，对数据进行特征工程（对数据清洗、整合，特征工程很重要！），根据要解决的问题提取出一些特征。
训练模型（重点）
定义模型；确定算法。
定义损失函数；找出算法的偏差。
优化算法；对算法进行优化。
模型评估
交叉验证；将不同的算法带入同一类数据中，验证效果。
效果评估；可以看出几个算法之间具体的差别、效果。

以一个图片根据颜色聚类问题为例，
首先明确要解决的问题——根据颜色聚类
收集到一些照片数据
进行特征工程：将图片转化成向量，这是非常重要的一步
然后用k-means聚类算法，完成模型训练
最后验证和评估。

posted @ 2017-08-28 15:20 aaanthony 阅读(293) 评论(0) 收藏举报

刷新页面返回顶部

Keep Learning

循此苦旅，以达天际。

初识机器学习——概念介绍（imooc笔记）

前言

概述

典型应用

数据分析 vs 机器学习的不同

数据的特点

解决业务问题不同

技术手段不同

参与者不同

对常用算法的分类方式

机器学习解决问题的步骤

公告

Keep Learning

循此苦旅，以达天际。

初识机器学习——概念介绍（imooc笔记）

前言

概述

典型应用

数据分析 vs 机器学习 的不同

数据的特点

解决业务问题不同

技术手段不同

参与者不同

对常用算法的分类方式

机器学习解决问题的步骤

公告

数据分析 vs 机器学习的不同