摘要: 分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测? ggplot2图形之基本语法: ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggpl 阅读全文
posted @ 2016-11-13 19:31 Little_Rookie 阅读(114284) 评论(4) 推荐(9) 编辑
摘要: 我们先来说个老生常谈的情景:某天你去买芒果,小贩摊了满满一车芒果,你一个个选好,拿给小贩称重,然后论斤付钱。 自然,你的目标是那些最甜最成熟的芒果,那怎么选呢?你想起来,啊外婆说过,明黄色的比淡黄色的甜。你就设了条标准:只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈,人生完整了? 呵呵呵。 告诉 阅读全文
posted @ 2016-11-13 19:02 Little_Rookie 阅读(42029) 评论(0) 推荐(5) 编辑
摘要: 摘要 在正则表达式中,如果直接给出字符,就是精确匹配。 {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况 在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2,4}? 只匹配 2 个 a。 在正则表达式中,如果直接给出字符,就是精确匹配。 {m,n}? 对于 阅读全文
posted @ 2016-11-13 17:16 Little_Rookie 阅读(2515) 评论(0) 推荐(0) 编辑
摘要: 归一化处理 数据降维 数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表 阅读全文
posted @ 2016-11-13 17:11 Little_Rookie 阅读(4225) 评论(0) 推荐(0) 编辑
摘要: PS:本文适用SQL Server2008语法。 一、关系型数据库和SQL 实际上准确的讲,SQL是一门语言,而不是一个数据库。 什么是SQL呢?简而言之,SQL就是维护和使用关系型数据库中的的数据的一种标准的计算机语言。 1.1 SQL语言主要有3个主要的组成部分。 DML(Data Manipu 阅读全文
posted @ 2016-11-13 17:02 Little_Rookie 阅读(2144) 评论(0) 推荐(1) 编辑
摘要: 原文链接:Step by step approach to perform data analysis using Python 译文链接:使用Python一步一步地来进行数据分析--By Michael翔 你已经决定来学习Python,但是你之前没有编程经验。因此,你常常对从哪儿着手而感到困惑,这 阅读全文
posted @ 2016-11-13 16:54 Little_Rookie 阅读(127413) 评论(5) 推荐(15) 编辑
摘要: 建议:如果只是处理(小)数据的,用R。结果更可靠,速度可以接受,上手方便,多有现成的命令、程序可以用。要自己搞个算法、处理大数据、计算量大的,用python。开发效率高,一切尽在掌握。 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data 阅读全文
posted @ 2016-11-13 15:59 Little_Rookie 阅读(18885) 评论(1) 推荐(3) 编辑
摘要: 在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。 机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y=f(X) 这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。 从训练数据中学习目标函数的过程 阅读全文
posted @ 2016-11-13 15:33 Little_Rookie 阅读(33252) 评论(1) 推荐(2) 编辑
摘要: 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最 阅读全文
posted @ 2016-11-13 14:52 Little_Rookie 阅读(2580) 评论(0) 推荐(1) 编辑
摘要: Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容:1、数据结构简介:DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用panda 阅读全文
posted @ 2016-11-13 13:52 Little_Rookie 阅读(196520) 评论(10) 推荐(41) 编辑
摘要: Python模块中的numpy,这是一个处理数组的强大模块,而该模块也是其他数据分析模块(如pandas和scipy)的核心。 接下面将从这5个方面来介绍numpy模块的内容: 1)数组的创建 2)有关数组的属性和函数 3)数组元素的获取--普通索引、切片、布尔索引和花式索引 4)统计函数与线性代数 阅读全文
posted @ 2016-11-13 13:41 Little_Rookie 阅读(27278) 评论(3) 推荐(10) 编辑