随笔分类 - 机器学习之路
摘要:参考链接: https://blog.csdn.net/qq_39355550/article/details/81809467 https://blog.csdn.net/qq_36396104/article/details/78171600 https://www.cnblogs.com/zo
阅读全文
摘要:该内容大部分来自<<百面机器学习算法工程师>> 1.特征工程 1.1为什么需要对数值类型进行归一化? 使各个指标处于同一数值量级,消除数据之间的量纲影响。 比如分析一个人的身高和体重对健康的影响。 1.2补充知识点 结构化数据:关系数据库的一张表,每列都有清晰的定义,包含了数值型和类别型 非结构化数
阅读全文
摘要:作者:寒小阳 时间:2016年1月。 出处:http://www.lai18.com/content/2440126.html 声明:版权所有,转载请联系作者并注明出处 1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们
阅读全文
摘要:一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。 这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体
阅读全文
摘要:常用数据结构 1.list 列表 有序集合 2.tuple 元组 是一个不可变的特殊list 一旦初始化后就不可以改变,它没有append(),insert()这样的方法所以代码更安全。如果可能,能用tuple代替list就尽量用tuple。 3.dict 字典 使用键-值(key-value)存储
阅读全文
摘要:Pandas 是对numpy的封装 Pandas 核心结构DataFrame 近似看出矩阵结构panda字符型叫object dataframe其中一行或者一列叫series dataframe 里面结构是series series里面的结构又是ndarryayseries 就是可以自定义索引的nd
阅读全文
摘要:seaborn是基于plt的封装好的库。有很强的作图功能。 1、布局风格设置(图形的style)and 细节设置 用matplotlib作图: 输出: 用seaborn的默认系统风格: 输出: 下面介绍seaborn的五种作图风格: darkgrid whitegrid dark white tic
阅读全文
摘要:1.绘制折线图 在pandas里面有一种数据类型为datatime ,可以将不规范的日期改为:xxxx-xx-xx 折线图 这样就能绘制出一个折线图了 如果横坐标写不下怎么办?我们可以将文字竖着写或者指定一个角度 一般情况下要写横坐标与纵坐标要表达什么,还有标题 输出; 输出: 最终版: 输出: 3
阅读全文
摘要:常用代码 ndarray.dtype 数据类型必须是一样的
阅读全文
摘要:机器学习实战之朴素贝叶斯 一,引言 前两章的KNN分类算法和决策树分类算法最终都是预测出实例的确定的分类结果,但是,有时候分类器会产生错误结果;本章要学的朴素贝叶斯分类算法则是给出一个最优的猜测结果,同时给出猜测的概率估计值。 1 准备知识:条件概率公式 相信学过概率论的同学对于概率论绝对不会陌生,
阅读全文
摘要:机器学习实战之决策树 一,引言: 上一章我们讲的kNN算法,虽然可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,而决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合,决策树的一个重要任务是为了数据所蕴含的知识信息,因此,决策树可以使用不熟悉的数据集合,并从中提取一系
阅读全文
摘要:机器学习实战之kNN算法 机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.11.3,64位,这是python的科学计算包,是python的一个矩阵类型
阅读全文
摘要:2018/6/6 训练误差/经验误差:学习器在训练集上的误差 泛华误差:学习器在新样本上的误差 过拟合/过配:学习能力过强 欠拟合/欠配:学习能力过弱 留出法:数据集分为一个训练集和测试集,然后保持分层采样标准进行泛化误差估计。一般用大约2/3~4/5样本用于训练。 交叉验证/k折交叉验证:将数据集
阅读全文
摘要:2018/5/31 基本术语 标记:关于样本结果的信息,例如好瓜 样例:拥有标记信息的示例 和样本有区别 分类:预测的是离散值,例如好瓜,坏瓜,此类学习任务 回归:预测的是连续值,例如西瓜成熟度0.95,0.37 泛化能力:学得模型适用于新样本的能力 特征向量:因为样本属性可以张成一个属性空间,而每
阅读全文
摘要:2018/5/31 machine learning 机器学习 learning algorithm 学习算法 feature 特征 attribute 属性 attribute space 样本空间 sample space 样板空间 data set 数据集 instance 示例 sample
阅读全文