Little_Rookie - 博客园

2016年11月22日

摘要： 0.安装环境 Windows10,Python3.5.1,IPython,jupyter notebook,and other functionality 官方安装文档Linux版3.x 官方安装文档列表，包含3.x2.x等等 1.下载Python最新版（3.5.1版链接）（根据机器位数下载如64位阅读全文

posted @ 2016-11-22 09:54 Little_Rookie 阅读(6525) 评论(0) 推荐(0)

2016年11月21日

Python多进程编程

摘要：转自：Python多进程编程阅读目录 1. Process 2. Lock 3. Semaphore 4. Event 5. Queue 6. Pipe 7. Pool 序. multiprocessingpython中的多线程其实并不是真正的多线程，如果想要充分地使用多核CPU的资源，在pyth 阅读全文

posted @ 2016-11-21 17:38 Little_Rookie 阅读(941) 评论(0) 推荐(0)

R语言基础：数组&列表&向量&矩阵&因子&数据框

摘要： R语言基础：数组和列表数组(array) 一维数据是向量，二维数据是矩阵，数组是向量和矩阵的直接推广，是由三维或三维以上的数据构成的. 数组函数是array(),语法是：array(dadta, dim)，其中data必须是同一类型的数据，dim是各维的长度组成的向量。 1、产生一个三维和四维数组阅读全文

posted @ 2016-11-21 16:07 Little_Rookie 阅读(23657) 评论(0) 推荐(0)

python－－数据清洗

摘要： 1.数据错误：错误类型– 脏数据或错误数据• 比如, Age = -2003– 数据不正确• ‘0’ 代表真实的0，还是代表缺失– 数据不一致• 比如收入单位是万元，利润单位是元，或者一个单位是美元，一个是人民币– 数据重复 2.缺失值处理：处理原则–缺失值少于20%•连续变量使用均值或中位数填阅读全文

posted @ 2016-11-21 15:27 Little_Rookie 阅读(22728) 评论(2) 推荐(2)

如何使用R语言解决可恶的脏数据

摘要：转自：http://shujuren.org/article/45.html 在数据分析过程中最头疼的应该是如何应付脏数据，脏数据的存在将会对后期的建模、挖掘等工作造成严重的错误，所以必须谨慎的处理那些脏数据。脏数据的存在形式主要有如下几种情况： 1）缺失值 2）异常值 3）数据的不一致性下面就阅读全文

posted @ 2016-11-21 13:59 Little_Rookie 阅读(3832) 评论(1) 推荐(0)

2016年11月20日

R----lubridata包介绍学习

摘要： lubridate包,非常强大,能够识别各种类型的日期.字符型和时间型数据,都是格式比较特别的你数据,在处理时,比较麻烦,但是有了lubridate这个包之后,时间处理变得非常简单,这个包函数命名简单,格式比较统一. lubridate包,非常强大,能够识别各种类型的日期.字符型和时间型数据,都是格阅读全文

posted @ 2016-11-20 22:08 Little_Rookie 阅读(2679) 评论(0) 推荐(0)

2016年11月18日

管道函数(%>%)很简单

摘要：％>％来自dplyr包的管道函数，其作用是将前一步的结果直接传参给下一步的函数，从而省略了中间的赋值步骤，可以大量减少内存中的对象，节省内存％>％来自dplyr包的管道函数，其作用是将前一步的结果直接传参给下一步的函数，从而省略了中间的赋值步骤，可以大量减少内存中的对象，节省内存符号%>%，这是阅读全文

posted @ 2016-11-18 18:54 Little_Rookie 阅读(6893) 评论(0) 推荐(0)

2016年11月17日

python matplotlib 中文显示参数设置

摘要： python matplotlib 中文显示参数设置方法一：每次编写代码时进行参数设置 #coding:utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcP 阅读全文

posted @ 2016-11-17 18:54 Little_Rookie 阅读(10258) 评论(1) 推荐(0)

mysql 一些基础的语法和命令

摘要：语法： SELECT 属性列表 FROM 表名或视图名 [ WHERE 条件表达式1 ] [ GROUP BY 属性名1 [ HAVING 条件表达式2 ] [ WITH ROOLUP ] ] [ ORDER BY 属性名2 [ ASC|DESC ] ]条件表达式1：指定查询条件条件表达式2：满足该阅读全文

posted @ 2016-11-17 17:32 Little_Rookie 阅读(981) 评论(0) 推荐(0)

批量运行R包

摘要： #批量运行包：all.pcg <- c("data.table","ggplot2","rmarkdown","tidyr","stringr","ggfortify") sapply(all.pcg, library, character.only = T) req.pcg <- function 阅读全文

posted @ 2016-11-17 16:47 Little_Rookie 阅读(867) 评论(0) 推荐(0)

Rmarkdown用法与R语言动态报告

摘要： Rmarkdown用法与R语言动态报告数据分析用R语言非常便捷，因为R语言的社区强大，并且在不断更新和完善，提供了各种分析利器。Knitr和Rmarkdown包则是数据分析中的动态报告利器。下面是一份输出HTML文档的Rmd文件。备忘 # 一级标题（#+空格+文字） ## 二级标题（##+空格+文阅读全文

posted @ 2016-11-17 16:44 Little_Rookie 阅读(32279) 评论(2) 推荐(2)

R----tidyr包介绍学习

摘要： tidyr包：reshape2的替代者，功能更纯粹 tidyr包的应用 tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能;gather和spread函数将数据在长格式和宽格式之间相互转化，应用在比如稀疏矩阵和稠密矩阵之间的转化;separate和union方法提供了阅读全文

posted @ 2016-11-17 16:14 Little_Rookie 阅读(20325) 评论(0) 推荐(1)

R----stringr包介绍学习

摘要： 1. stringr介绍 stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性，比如，用相同的方法进行NA处理和0长度的向量处理。字符串处理虽然不是R语言中最主要的功能，却也是必不可少的，数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字符串基阅读全文

posted @ 2016-11-17 16:14 Little_Rookie 阅读(47189) 评论(0) 推荐(5)

R之data.table -melt/dcast(数据合并和拆分)

摘要： R之data.table -melt/dcast(数据拆分和合并) 写在前面：数据整形的过程确实和揉面团有些类似，先将数据通过melt()函数将数据揉开，然后再通过dcast()函数将数据重塑成想要的形状 reshape2包： melt-把宽格式数据转化成长格式。 cast-把长格式数据转化成宽格式阅读全文

posted @ 2016-11-17 16:08 Little_Rookie 阅读(39566) 评论(0) 推荐(2)

R之data.table速查手册

摘要： R语言data.table速查手册介绍 R中的data.table包提供了一个data.frame的高级版本，让你的程序做数据整型的运算速度大大的增加。data.table已经在金融，基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集（比如 1GB 到100GB）需要在内存中处理数据的人。阅读全文

posted @ 2016-11-17 16:02 Little_Rookie 阅读(28178) 评论(0) 推荐(2)

R----data.table包介绍学习

摘要：相比dplyr包，data.table包能够更大程度地提高数据的处理速度，这里就简单介绍一下data.tale包的使用方法。 data.table：用于快速处理大数据集的哦数据的读取 data.table包中数据读取的函数：fread() data.table的创建 library(data.ta 阅读全文

posted @ 2016-11-17 16:01 Little_Rookie 阅读(6710) 评论(0) 推荐(0)

2016年11月15日

正则表达式

摘要：正则表达式正则表达式是对字符串类型数据进行匹配判断，提取等操作的一套逻辑公式。处理字符串类型数据方面，高效的工具有Perl和Python。如果我们只是偶尔接触文本处理任务，则学习Perl无疑成本太高；如果常用Python，则可以利用成熟的正则表达式模块：re库；如果常用R，则使用Hadley大阅读全文

posted @ 2016-11-15 23:44 Little_Rookie 阅读(1741) 评论(1) 推荐(1)

R绘图基础

摘要：一，布局Ｒ绘图所占的区域，被分成两大部分，一是外围边距，一是绘图区域。外围边距可使用par()函数中的oma来进行设置。比如oma=c(4,3,2,1)，就是指外围边距分别为下边距：4行，左边距3行，上边距2行，右边距1行。很明显这个设置顺序是从x轴开始顺时针方向。这里的行是指可以显示1行普通字阅读全文

posted @ 2016-11-15 14:25 Little_Rookie 阅读(9494) 评论(1) 推荐(1)

ggplot2.multiplot：将多个图形使用GGPLOT2在同一页上

摘要：一页多图介绍 ggplot2.multiplot是一个易于使用的功能，将多个图形在同一页面上使用R统计软件和GGPLOT2绘图方法。这个功能是从easyGgplot2包。介绍 ggplot2.multiplot是一个易于使用的功能，将多个图形在同一页面上使用R统计软件和GGPLOT2绘图方法。这阅读全文

posted @ 2016-11-15 12:45 Little_Rookie 阅读(21109) 评论(0) 推荐(1)

2016年11月14日

R----Shiny包介绍学习

摘要：为什么用Shiny Shiny让数据分析师写完分析与可视化代码后，稍微再花几十分钟，就可以把分析代码工程化，将分析成果快速转化为交互式网页分享给别人。所以，如果你是一名使用R的数据分析师，选择Shiny是非常明智的，因为它不需要你有新的技能，且开发起来实在太快。它跟通常我们了解的其他框架不一样：其他阅读全文

posted @ 2016-11-14 01:50 Little_Rookie 阅读(8601) 评论(0) 推荐(0)

R----DT包介绍学习

摘要： DT包：查看矩阵或数据框的内容 DT包提供大量UI定制功能，即修改展示的HTML、CSS和js。阅读全文

posted @ 2016-11-14 01:28 Little_Rookie 阅读(2315) 评论(0) 推荐(0)

R----plotly包介绍学习

摘要： plotly包：让ggplot2的静态图片变得可交互 Plotly 是个交互式可视化的第三方库，官网提供了Python，R，Matlab,JavaScript，Excel的接口，因此我们可以很方便地在这些软件中调用Plotly，从而实现交互式的可视化绘图。 plotly支持facet，不过当face 阅读全文

posted @ 2016-11-14 01:26 Little_Rookie 阅读(9962) 评论(0) 推荐(0)

R----dplyr包介绍学习

摘要： dplyr包：plyr包的替代者，专门面对数据框，将ddplyr转变为更易用的接口 %>%来自dplyr包的管道函数，其作用是将前一步的结果直接传参给下一步的函数，从而省略了中间的赋值步骤，可以大量减少内存中的对象，节省内存，可惜的是应用范围还不是很广。 dplyr和data.table（易于操作数阅读全文

posted @ 2016-11-14 01:24 Little_Rookie 阅读(15334) 评论(0) 推荐(0)

2016年11月13日

R----ggplot2包介绍学习

摘要：分析数据要做的第一件事情，就是观察它。对于每个变量，哪些值是最常见的？值域是大是小？是否有异常观测？ ggplot2图形之基本语法： ggplot2的核心理念是将绘图与数据分离，数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数，使其更具灵活性ggpl 阅读全文

posted @ 2016-11-13 19:31 Little_Rookie 阅读(115481) 评论(4) 推荐(9)

非码农也能看懂的“机器学习”原理

摘要：我们先来说个老生常谈的情景：某天你去买芒果，小贩摊了满满一车芒果，你一个个选好，拿给小贩称重，然后论斤付钱。自然，你的目标是那些最甜最成熟的芒果，那怎么选呢？你想起来，啊外婆说过，明黄色的比淡黄色的甜。你就设了条标准：只选明黄色的芒果。于是按颜色挑好、付钱、回家。啊哈，人生完整了？呵呵呵。告诉阅读全文

posted @ 2016-11-13 19:02 Little_Rookie 阅读(44249) 评论(0) 推荐(5)

Python正则表达式学习摘要及资料

摘要：摘要在正则表达式中，如果直接给出字符，就是精确匹配。 {m,n}? 对于前一个字符重复 m 到 n 次，并且取尽可能少的情况在字符串'aaaaaa'中，a{2,4} 会匹配 4 个 a，但 a{2,4}? 只匹配 2 个 a。在正则表达式中，如果直接给出字符，就是精确匹配。 {m,n}? 对于阅读全文

posted @ 2016-11-13 17:16 Little_Rookie 阅读(2545) 评论(0) 推荐(0)

机器学习之数据预处理

摘要：归一化处理数据降维数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表阅读全文

posted @ 2016-11-13 17:11 Little_Rookie 阅读(4268) 评论(0) 推荐(0)

SQL基础语法笔记教程整理

摘要： PS：本文适用SQL Server2008语法。一、关系型数据库和SQL 实际上准确的讲，SQL是一门语言，而不是一个数据库。什么是SQL呢？简而言之，SQL就是维护和使用关系型数据库中的的数据的一种标准的计算机语言。 1.1 SQL语言主要有3个主要的组成部分。 DML(Data Manipu 阅读全文

posted @ 2016-11-13 17:02 Little_Rookie 阅读(2194) 评论(0) 推荐(1)

使用Python一步一步地来进行数据分析总结

摘要：原文链接：Step by step approach to perform data analysis using Python 译文链接：使用Python一步一步地来进行数据分析--By Michael翔你已经决定来学习Python，但是你之前没有编程经验。因此，你常常对从哪儿着手而感到困惑，这阅读全文

posted @ 2016-11-13 16:54 Little_Rookie 阅读(127994) 评论(5) 推荐(16)

深入对比数据科学工具箱：Python和R之争

摘要：建议：如果只是处理（小）数据的，用R。结果更可靠，速度可以接受，上手方便，多有现成的命令、程序可以用。要自己搞个算法、处理大数据、计算量大的，用python。开发效率高，一切尽在掌握。概述在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析（Data 阅读全文

posted @ 2016-11-13 15:59 Little_Rookie 阅读(19209) 评论(1) 推荐(3)

机器学习算法中的过拟合与欠拟合

摘要：在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。机器学习中的逼近目标函数过程监督式机器学习通常理解为逼近一个目标函数(f)(f)，此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y=f(X) 这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。从训练数据中学习目标函数的过程阅读全文

posted @ 2016-11-13 15:33 Little_Rookie 阅读(33472) 评论(1) 推荐(2)

监督学习与无监督学习

摘要：机器学习的常用方法，主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最阅读全文

posted @ 2016-11-13 14:52 Little_Rookie 阅读(2657) 评论(0) 推荐(1)

Python数据分析之pandas学习

摘要： Python中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容：1、数据结构简介：DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的DataFrames进行统计分析5、利用pandas实现SQL操作6、利用panda 阅读全文

posted @ 2016-11-13 13:52 Little_Rookie 阅读(197863) 评论(10) 推荐(42)

Python数据分析之numpy学习

摘要： Python模块中的numpy，这是一个处理数组的强大模块，而该模块也是其他数据分析模块（如pandas和scipy）的核心。接下面将从这5个方面来介绍numpy模块的内容： 1）数组的创建 2）有关数组的属性和函数 3）数组元素的获取--普通索引、切片、布尔索引和花式索引 4）统计函数与线性代数阅读全文

posted @ 2016-11-13 13:41 Little_Rookie 阅读(27526) 评论(3) 推荐(10)