10 2019 档案

摘要:线性模型形式简单,易于建模,但却蕴含着机器学习中一些重要的基本思想,许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。 一、线性回归 线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,在小数据中运用十分广泛。分析按照自变 阅读全文
posted @ 2019-10-31 11:55 小稣 阅读(775) 评论(0) 推荐(0)
摘要:是基本算法,和决策树一样,是树模型中的基础算法,朴素贝叶斯是贝叶斯中的一个算法,是基于统计学的,在文本处理领域应用广泛。 需要先掌握贝叶斯定理: 联合概率(两个事件同时发生的概率) 条件概率(事件A发生的情况下,B的概率)= AB的联合概率/A发生的概率 乘法公式:条件概率变形 联合概率—条件概率— 阅读全文
posted @ 2019-10-30 17:37 小稣 阅读(131) 评论(0) 推荐(0)
摘要:思路:算法原理、API调用、调差 sklearn 一般的做法是API里面找到你要调用的方法,然后可以查看方法参数的情况和使用情况。也可以在指南里面找到具体的解释。 sklearn库的算法主要有四类:分类,回归,聚类,降维。 请看:https://blog.csdn.net/u014248127/ar 阅读全文
posted @ 2019-10-30 10:19 小稣 阅读(178) 评论(0) 推荐(0)
摘要:简介 机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过,有这么多条件,用哪个条件特征先做if,哪个条件特征后做if比较优呢?怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。 在这个算法中,基本的构造流程, 阅读全文
posted @ 2019-10-29 11:26 小稣 阅读(199) 评论(0) 推荐(0)
摘要:利用这个算法,学习一些机器学习中的基本概念。KNN是分类算法。 物以类聚人以群分的思想,KNN是一个没有学习过程的,不算模型,消耗的运算量比较大。 一、算法的数学原理 两点的距离计算,二维是勾股定理,三维和高维是类似的。 二、手写代码实现 三、scikit-learn 算法库实现 https://s 阅读全文
posted @ 2019-10-28 11:38 小稣 阅读(175) 评论(0) 推荐(0)
摘要:常用的是有监督学习和无监督学习。有监督学习,就是有目标值的。有正确答案。没有目标标签的,没有正确答案的就是无监督学习,就是聚类。更多是有目标的,离散的数据就是分类,连续的数据就是回归。两分类的问题相对简单。 阅读全文
posted @ 2019-10-28 11:15 小稣 阅读(209) 评论(0) 推荐(0)
摘要:开始的时候,就是利用规则,但是有瓶颈,后来就有了基于统计学的方向,建立模型,让机器基于模型的规则,进行数据的拟合,模型里有很多参数,有可变化的东西,是机器自己学习的,效果有超过规则的可能,两个学派,基于规则,基于数学(统计学),后来机器学习慢慢后来居上,机器学习慢慢发展出很多的算法,逻辑树、决策树很 阅读全文
posted @ 2019-10-28 10:56 小稣 阅读(321) 评论(0) 推荐(0)
摘要:引言 全局的概览+八个案例+窜一下 抽象的一般具有连续的性质,分类变量的小数位是没有意义的。抽象的变量,它的0往往是没有意义的,比如说幸福感。同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的。标度可以分:间距(抽象的)和比率(0是有意 阅读全文
posted @ 2019-10-21 17:36 小稣 阅读(821) 评论(0) 推荐(0)
摘要:导入Matplotlib库 (上方代码块是自动绘图(省略show的方法)) 1.查看都有什么风格style 2.设置绘图风格 3.设置支持中文字体显示 4.绘制折线图 plot 折线图接口 color 颜色 linewidth 线宽 markersize 点大小 fontsize 字体 marker 阅读全文
posted @ 2019-10-18 13:22 小稣 阅读(185) 评论(0) 推荐(0)
摘要:我们经常需要对某些标签或索引的局部进行累计分析, 这时就需要用到 groupby 了. 实际上,我们可以把 groupby 理解成一个分割(split),应用(apply),组合(combine)的过程. 我们经常需要对某些标签或索引的局部进行累计分析, 这时就需要用到 groupby 了. 实际上 阅读全文
posted @ 2019-10-18 12:57 小稣 阅读(1256) 评论(0) 推荐(0)
摘要:文本数据也就是我们常说的字符串,Pandas 为 Series 提供了 str 属性,通过它可以方便的对每个元素进行操作。str 字符串向量化,可以提高处理字符串的效率。 使用 str 方法将数据字符串向量化映射: 一、和 python 原生字符串区别不大的方法 len、lower、upper、is 阅读全文
posted @ 2019-10-17 17:53 小稣 阅读(321) 评论(0) 推荐(0)
摘要:在了解缺失值如何处理之前,首先要知道的就是什么是缺失值?直观上理解,缺失值表示的是“缺失的数据”。 可以思考一个问题:是什么原因造成的缺失值呢?其实有很多原因,实际生活中可能由于有的数据不全所以导致数据缺失,也有可能由于误操作导致数据缺失,又或者人为地造成数据缺失。 一、寻找缺失值 这些缺失值,可以 阅读全文
posted @ 2019-10-17 14:03 小稣 阅读(625) 评论(0) 推荐(0)
摘要:一、描述与统计 1.查看基本统计值 有时候我们获取到数据之后,想要查看下数据的简单统计指标(最大值、最小值、平均值、中位数等),比如想要查看年龄的最大值,如何实现呢? 直接对 age 这一列调用 max方法即可。类似的,通过调用 min、mean、quantile、sum 方法可以实现最小值、平均值 阅读全文
posted @ 2019-10-16 09:41 小稣 阅读(437) 评论(0) 推荐(0)
摘要:Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中。在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作。可以说是升级版的Excel。Pandas是基于Numpy的一个数据分析包 阅读全文
posted @ 2019-10-15 23:01 小稣 阅读(447) 评论(0) 推荐(0)
摘要:引言:回顾和概览 Numpy是一个科学计算包。如果你做数据清洗、整合的时候,不一定用到,直接用Pandas就好,Numpy是一个科学计算包,这个包里面的数据类型一种,就是ndarray,所有的计算都是基于这个数据类型,首先就是把其他的数据类型转换为ndarray。在数据类型里,整数32,浮点型32/ 阅读全文
posted @ 2019-10-15 09:58 小稣 阅读(202) 评论(0) 推荐(0)
摘要:简单来说,Numpy 是 Python 的一个科学计算包,包含了多维数组以及多维数组的操作。Numpy 的核心是 ndarray 对象,这个对象封装了同质数据类型的n维数组。起名 ndarray 的原因就是因为是 n-dimension-array 的简写。ndarray中的每个元素在内存中使用相同 阅读全文
posted @ 2019-10-14 23:15 小稣 阅读(202) 评论(0) 推荐(0)
摘要:Python 流程语句 阅读全文
posted @ 2019-10-14 17:26 小稣 阅读(129) 评论(0) 推荐(0)
摘要:什么是函数 阅读全文
posted @ 2019-10-12 17:10 小稣 阅读(99) 评论(0) 推荐(0)
摘要:Python中是数据可以分为:布尔型、数值型、字符串、列表、元组、字典和集合。下面具体说明: 一、布尔型 阅读全文
posted @ 2019-10-10 12:14 小稣 阅读(348) 评论(0) 推荐(0)