随笔分类 -  数据分析

1

Data Analysis
Apache Spark简单介绍、安装及使用
摘要:Apache Spark简介 Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务。 分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能。 Apache Spark安装及配置(OS X下的Ubuntu虚拟机) 学习新东西最好是在虚拟机下操作 阅读全文

posted @ 2016-09-08 16:23 backslash112 阅读(8463) 评论(0) 推荐(0) 编辑

使用Beautiful Soup编写一个爬虫 系列随笔汇总
摘要:这几篇博文只是为了记录学习Beautiful Soup的过程,不仅方便自己以后查看,也许能帮到同样在学习这个技术的朋友。通过学习Beautiful Soup基础知识 完成了一个简单的爬虫服务:从allitebooks.com抓取书籍的书名和每本书对应的ISBN码,然后通过ISBN码去amazon.c 阅读全文

posted @ 2016-08-25 09:57 backslash112 阅读(1212) 评论(0) 推荐(0) 编辑

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
摘要:通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码。(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码) 接下来将通过ISBN码去amazon.com获取每本书对应的价格。 一、了解需要和分 阅读全文

posted @ 2016-08-19 11:05 backslash112 阅读(1858) 评论(0) 推荐(7) 编辑

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
摘要:这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码。 一、分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页。 要想得到书籍的详细信息和ISBN码,我们需要遍历所有的页码,进入到书籍列表,然后从书籍列表进入到每本 阅读全文

posted @ 2016-08-18 21:38 backslash112 阅读(2121) 评论(3) 推荐(1) 编辑

利用Python进行数据分析 基础系列随笔汇总
摘要:一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ,一共可以划分为三个大部分: 第一部分简单介绍数据分析,以一个小例子简单说明了什么是数据分析和 I 阅读全文

posted @ 2016-08-14 18:23 backslash112 阅读(4639) 评论(0) 推荐(5) 编辑

利用Python进行数据分析(14) pandas基础: 数据转换
摘要:数据转换指的是对数据的过滤、清理以及其他的转换操作。 移除重复数据 DataFrame里经常会出现重复行,DataFrame提供一个duplicated()方法检测各行是否重复,另一个drop_duplicates()方法用于丢弃重复行: duplicated()和drop_duplicates() 阅读全文

posted @ 2016-08-14 16:19 backslash112 阅读(6578) 评论(0) 推荐(0) 编辑

利用Python进行数据分析(15) pandas基础: 字符串操作
摘要:字符串对象方法 split()方法拆分字符串: strip()方法去掉空白符和换行符: split()结合strip()使用: "+"符号可以将多个字符串连接起来: join()方法也是连接字符串,比较它和"+"符号的区别: in关键字判断一个字符串是否包含在另一个字符串中: index()方法和f 阅读全文

posted @ 2016-08-14 09:59 backslash112 阅读(32365) 评论(0) 推荐(0) 编辑

利用Python进行数据分析(11) pandas基础: 层次化索引
摘要:层次化索引 层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集 以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引Series转换为DataFrame 层次化索引在数据重塑和分组中扮演着很重要的角色,例如,上面的层次化索引数 阅读全文

posted @ 2016-08-13 16:51 backslash112 阅读(6764) 评论(1) 推荐(0) 编辑

利用Python进行数据分析(10) pandas基础: 处理缺失数据
摘要:数据不完整在数据分析的过程中很常见。 pandas使用浮点值NaN表示浮点和非浮点数组里的缺失数据。 pandas使用isnull()和notnull()函数来判断缺失情况。 对于缺失数据一般处理方法为滤掉或者填充。 滤除缺失数据 对于一个Series,dropna()函数返回一个包含非空数据和索引 阅读全文

posted @ 2016-08-13 16:13 backslash112 阅读(20583) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(6) NumPy基础: 矢量计算
摘要:矢量化指的是用数组表达式代替循环来操作数组里的每个元素。 NumPy提供的通用函数(既ufunc函数)是一种对ndarray中的数据进行元素级别运算的函数。 例如,square函数计算各元素的平方,rint函数将各元素四舍五入: 还有一些函数接受2个参数,叫二元ufunc,比如add函数和maxim 阅读全文

posted @ 2016-08-13 10:41 backslash112 阅读(4396) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(13) pandas基础: 数据重塑/轴向旋转
摘要:重塑定义 重塑指的是将数据重新排列,也叫轴向旋转。 DataFrame提供了两个方法: stack: 将数据的列“旋转”为行。 unstack:将数据的行“旋转”为列。 stack: 将数据的列“旋转”为行。 unstack:将数据的行“旋转”为列。 例如: 处理堆叠格式 堆叠格式也叫长格式,一般关 阅读全文

posted @ 2016-08-12 15:50 backslash112 阅读(5460) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(12) pandas基础: 数据合并
摘要:pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并; pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起; 实例方法combine_first()方法:合并重叠数据。 pandas.merge()方法:数据库风格的合并 阅读全文

posted @ 2016-08-12 11:06 backslash112 阅读(6921) 评论(1) 推荐(0) 编辑

利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
摘要:概念理解 索引即通过一个无符号整数值获取数组里的值。 切片即对数组里某个片段的描述。 一维数组 一维数组的索引 一维数组的索引和Python列表的功能类似: 一维数组的切片 一维数组的切片语法格式为array[index1:index2],意思是从index1索引位置开始,到index2索引(不包括 阅读全文

posted @ 2016-08-11 22:32 backslash112 阅读(15812) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(9) pandas基础: 汇总统计和计算
摘要:pandas 对象拥有一些常用的数学和统计方法。 例如,sum() 方法,进行列小计: sum() 方法传入 axis=1 指定为横向汇总,即行小计: idxmax() 获取最大值对应的索引: 还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数 阅读全文

posted @ 2016-08-07 17:31 backslash112 阅读(36851) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
摘要:一、reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序。 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行。 不想用缺失值,可以用 fill_value 参数指定填充值。 例如: fill_value 会让所有的缺失值都填充为同一个值 阅读全文

posted @ 2016-08-07 11:49 backslash112 阅读(30226) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
摘要:一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。 pandas 有两个主要的数据结构:Series 和 DataFrame。 二、Series Series 是一个一维数组对象 ,类似 阅读全文

posted @ 2016-08-05 16:25 backslash112 阅读(64685) 评论(0) 推荐(2) 编辑

利用Python进行数据分析(4) NumPy基础: ndarray简单介绍
摘要:一、NumPy 是什么 NumPy 是 Python 科学计算的基础包,它专为进行严格的数字处理而产生。在之前的随笔里已有更加详细的介绍,这里不再赘述。 利用 Python 进行数据分析(一)简单介绍 二、ndarray 是什么 ndarray 是一个多维的数组对象,具有矢量算术运算能力和复杂的广播 阅读全文

posted @ 2016-08-04 19:43 backslash112 阅读(33362) 评论(0) 推荐(1) 编辑

利用Python进行数据分析(3) 使用IPython提高开发效率
摘要:一、IPython 简介 IPython 是一个交互式的 Python 解释器,而且它更加高效。 它和大多传统工作模式(编辑 -> 编译 -> 运行)不同的是, 它采用的工作模式是:执行 -> 探索 ,而大部分和数据分析相关的代码都含有探索式操作(比如试误法和迭代法),所以 IPython 能大大提 阅读全文

posted @ 2016-08-03 21:13 backslash112 阅读(3674) 评论(1) 推荐(5) 编辑

利用Python进行数据分析(2) 尝试处理一份JSON数据并生成条形图
摘要:一、JSON 数据准备 首先准备一份 JSON 数据,这份数据共有 3560 条内容,每条内容结构如下: 本示例主要是以 tz(timezone 时区) 这一字段的值,分析这份数据里时区的分布情况。 二、将 JSON 数据转换成 Python 字典 代码如下: 三、统计 tz 值分布情况,以“时区: 阅读全文

posted @ 2016-08-02 19:05 backslash112 阅读(7217) 评论(9) 推荐(2) 编辑

利用Python进行数据分析(1) 简单介绍
摘要:一、处理数据的基本内容 数据分析 是指对数据进行控制、处理、整理、分析的过程。 在这里,“数据”是指结构化的数据,例如:记录、多维数组、Excel 里的数据、关系型数据库中的数据、数据表等。 二、说说 Python 这门语言 Python 是现在最受欢迎的动态编程语言之一(还有 Perl、Ruby 阅读全文

posted @ 2016-08-01 16:30 backslash112 阅读(24298) 评论(6) 推荐(2) 编辑

1

导航