机器学习一丢丢基础

人工智能必备三要素
数据
算法
计算力
cpu io密集型任务
gpu 计算密集型
tpu 谷歌

人工智能》机器学习》深度学习--包含
1950 1980 2010
关系
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方向发展而来

起源艾伦麦席森图灵计算机之父图灵测试
达特茅斯会议 --1956年人工智能元年-- 用机器来模仿人类学习以及其他方向的发展

分支
计算机视觉
NLP 自然语言处理
覆盖文本发掘/分类，机器翻译，语音识别
语音识别 1.语音转文本
2.文本转语音（TTS）
难题：1.声纹识别类似指纹识别
2.鸡尾酒会效应唤醒词
文本挖掘/分类
句法分析，情绪检测，垃圾信息检测
瓶颈数据有差异，歧义
机器翻译
受限词表问题
机器人
固定机器人
移动机器人
计算机视觉
自然语言处理

重点----机器学习
机器学习是从数据中分析获得模型，并利用模型对未知数据进行预测

机器学习工作流程
1.获取数据

2.数据基本处理
3.特征工程--重点
4.建立模型--机器学习算法（模型训练）
5.模型评估
1.好--上线服务
2.不好--重复迭代--2，3，4，5重复至上线服务

数据简介
一行数据是一个样本
一列数据是一个特征
有些数据有目标值有些数据没有目标值

数据类型
数据类型一特征值+目标值（目标是连续的，和离散的）
数据类型二只有特征值，没有目标值

数据分割
训练集--构建模型
测试集--评估数据模型结果
划分比列一般是2 8分
训练集 70%-80%-75%
测试集 30%-20%-25%

数据基本处理
即对数据进行缺失值，去除异常值等处理

特征工程--重点
使用专用背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程
意义：会直接影响机器学习的效果
数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，决定了算法的准确率

特征工程包含内容
1.特征提取
将任意数据（文本/图片）转成数字特征
2.特征预处理
通过一些-转化函数-将-特征数据-转换-成更加-适合算法模型-的特征数据-过程-
3.特征降维
旨在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”

机器学习算法分类

根据数据集组成不同可以分为：
1.监督学习有目标值有特征值有监督学习
目标 --连续--回归问题
目标 --离散--分类问题
2.有特征值无目标值无监督学习
3.半监督学习部分数据有标签部分数据没标签
4.强化学习阿尔法狗

监督学习
数据类型：特征值+目标值
回归问题
目标是--连续型
分类问题
目标是--离散型

无监督学习
只有特征无目标值

半监督学习
特征值--目标值
特征值

强化学习
目标就是获得最多的累计奖励

独立同分布
独立，每次抽样都是独立的，不会相互影响，没有关系
同分布每次抽样都服从同一个分布
独立同分布每次抽样独立且同分布

Alphago — 大量样本数据学习—棋谱—有监督学习
Alphago zero — 强化学习

模型评估
按照数据集的目标值不同
连续回归
离散分类
分类模型评估
计算准确率，精确率，召回率，F1-score，AUC指标

回归模型评估
均方根误差（Root Mean Squared Error，RMSE）
真实值和预测值之间的信息损失度量
其他
相对平方误差
平均绝对误差
相对绝对误差

俩种结果好和差
拟合——好-拟合效果好
不好-拟合效果不好
欠拟合：模型学习的太过粗糙，连训练集中的样本数据特征关系都没有学出来，模型过于简单，没有学习到特征，
过拟合：训练集效果好，测试集效果不好，学习训练集太充分了，模型过于复杂，模型边缘锯齿状，不稳定

Azure机器学习模型搭建实例
1.获取数据
训练集--下载
2.数据基本处理
3.特征工程
4.建立模型
5.模型评估
看word文档

深度学习-深度结构学习、层次学习，深度机器学习，是一类算法集合，是机器学习的一个分支
卷积网络之父
深度学习分层

神经网络

机器学习基础环境安装和使用
安装—库
安装— jupyter notebook
加强版 ipython 是这个的网页版
编辑模式 enter
命令模式 esc
a 上加一行
b 下加一行
dd 删除
m markdown模式
z

运行代码 shfit enter 执行并切换到下一个cell
ctrl enter 执行留在当前

比-pycharm-在画图和数据展示方向更有优势

执行代码 shfit + enter 执行本单元新建一个单元

posted @ 2019-11-12 20:12 沐军阅读(178) 评论(0) 收藏举报

刷新页面返回顶部

沐军

机器学习 一丢丢基础

公告

机器学习一丢丢基础