06 2019 档案

摘要:虽然现在数据库空间越来越大,但处理数据时候还是有要删除的时候,以下整理了一些最常用的删除语句。 分成两种 一个是删除指定数据,另一个删除所有数据。 一、删除指定数据 DELETE FROM 表名 WHERE 列名=值; 如果DELETE FROM 表名 后面不加限制,将会删除所有数据,但表结构还在, 阅读全文
posted @ 2019-06-12 11:17 我的数据之路 阅读(23224) 评论(0) 推荐(1)
摘要:K-means聚类 将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分、产品类别划分等)中。 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离。 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的。不归一化的会使得距离非常远。 阅读全文
posted @ 2019-06-08 17:50 我的数据之路 阅读(7073) 评论(0) 推荐(0)
摘要:线性回归分析过程中可能会遇到的问题 选定自变量时候要注意:去除多重共线性干扰 什么是多重共线性干扰? 强相关变量 多重共线性 避免将两个强相关变量输入到一个模型中,解决办法是只保留一个。 消除多重共线性的方法: 如果GVIF>10 则需要调整 如何挑选输入模型的自变量 输入的自变量多是有好处的,能够 阅读全文
posted @ 2019-06-08 16:09 我的数据之路 阅读(367) 评论(0) 推荐(0)
摘要:线性回归算法在选自变量会遇到两个问题:一是去掉多重共线性干扰,二是选择最优自变量组合。 线性回归步骤 1.选择自变量 注意点 去掉多重共线性干扰,选择最优自变量组合。这里需要理解决定系数:R^。它是理解选自变量两个问题的基础。 2.创建线线回归模型 3.分析模型 R^ 表示因变量波动中被模型拟合的百 阅读全文
posted @ 2019-06-08 11:47 我的数据之路 阅读(3592) 评论(0) 推荐(0)
摘要:基本概念 利用线性的方法,模拟因变量与一个或多个自变量之间的关系。自变量是模型输入值,因变量是模型基于自变量的输出值。 因变量是自变量线性叠加和的结果。 线性回归模型背后的逻辑——最小二乘法计算线性系数 最小二乘法怎么理解? 它的主要思想就是求解未知参数,使得理论值与观测值之差(即误差,或者说残差) 阅读全文
posted @ 2019-06-08 10:51 我的数据之路 阅读(1818) 评论(0) 推荐(0)
摘要:分类树(决策树)是一种十分常用的分类方法。核心任务是把数据分类到可能的对应类别。 他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。 决策树的理解 熵的概念对理解决策树很重要 决策 阅读全文
posted @ 2019-06-07 12:42 我的数据之路 阅读(4040) 评论(0) 推荐(0)
摘要:这里主要从应用角度讲这三者之间的关系 在数据分析工作全流程中,统计方法主要应用在数据探索、统一分析与建模阶段 平均值、中位数等更好了解当前的数据,A/B测试检测两个数据差异是否显著等。 …… 监督学习的驱动力分析与无监督学习的分类分析 阅读全文
posted @ 2019-06-07 02:48 我的数据之路 阅读(1836) 评论(0) 推荐(0)
摘要:一句话明晰概念:不用编程制定机器做什么,机器有能力自己学习。 三种最基础的机器学习算法:决策树、线性回归、K-means聚类。 监督与无监督学习 周志华通过敲西瓜案例有以下讲解: 监督学习是在敲西瓜听声音判断好坏过程中有懂行的人告诉你这个瓜的好坏,给不同的声音贴上了好坏瓜的标签,慢慢学习声音特征之间 阅读全文
posted @ 2019-06-07 02:11 我的数据之路 阅读(410) 评论(0) 推荐(0)
摘要:一般来说R语言是自上而下执行的,但是遇到特殊情况可能用到循环执行某些语句,这时候条件运算和循环就能派上用场了。 阅读全文
posted @ 2019-06-06 00:47 我的数据之路 阅读(392) 评论(0) 推荐(0)
摘要:数学类函数 在求有缺失值的子集的最大值时候,需要先用na.re=TRUE去掉缺失值。 求几个特定百分位数 round(x,n) n表示保留的小数点位数 分布类函数 rnorm,密度高的数字,生成概率就高 阅读全文
posted @ 2019-06-05 23:59 我的数据之路 阅读(542) 评论(0) 推荐(0)
摘要:取子集方法 x[]:适用于所有r语言 x[[ ]]:适用于list或者data.frame中提取元素 x$:使用元素名做索引,提取list或者data.frame中的某个元素 注意,取出的子集数据类型跟原来的类型一致 x[[ ]],仅可以提取一个对象,返回对象并不和原list、data.frame数 阅读全文
posted @ 2019-06-05 23:58 我的数据之路 阅读(894) 评论(0) 推荐(0)
摘要:相比r语言自带软件包,ggplot2有以下特色 图形语法的核心:统计图形是数据向几何对象属性的一个映射。 阅读全文
posted @ 2019-06-05 23:56 我的数据之路 阅读(1835) 评论(0) 推荐(0)
摘要:一.数据类型 5种 1.character 字符 2.numeric 数值 3.integer 整数 一般数字的存储会默认为数值类型,如果要强调是整数,需要在变量值后面加上 L。 x <- 5L class(x) 4.complex 复数 1+2i 5.logical 逻辑 TRUE&FALSE c 阅读全文
posted @ 2019-06-05 23:55 我的数据之路 阅读(3566) 评论(0) 推荐(0)
摘要:先读懂箱型图的几条线 Q1,Q2,Q3 分别为数据的第一四分位数、中位数、第三四分位数。 Q3+1.5*IQR 是数据向上取值的边界,如果大于这个数,就被定义成轻度异常大的值。 Q1-1.5*IQR 是数据向下取值的边界,如果小于这个数,就被定义成轻度异常小的值。 箱型图实际是概率密度函数的简化版, 阅读全文
posted @ 2019-06-05 18:10 我的数据之路 阅读(4810) 评论(0) 推荐(0)