摘要:
一、大数据介绍 二、Hadoop介绍—jdk安装 三、Hadoop安装及配置 阅读全文
摘要:
[client] port = 3306 socket = /var/lib/mysql/mysql.sock [mysql] #这个配置段设置启动MySQL服务的条件;在这种情况下,no-auto-rehash确保这个服务启动得比较快。 no-auto-rehash [mysqld] user = 阅读全文
摘要:
Hadoop 阅读全文
摘要:
ggplot是基于R的ggplot2和Python的绘图系统。它的构建是为了用最少的代码快速绘制专业又美观的图表。 ggplot与python中的pandas有着共生关系。如果打算使用ggplot,最好将数据保存在DataFrames中。即若想使用ggplot,先将数据转化为dataframe形式, 阅读全文
摘要:
一、pandas基础 二、pandas函数 阅读全文
摘要:
一、sklearn.datasets数据集介绍 机器学习sklearn中的datasets模块提供了一些自带的小数据集。数据集是一个类似字典的对象,特征数据存储在 .data 成员中,它是 n_samples, n_features 数组。 在监督问题的情况下,一个或多个响应变量存储在 .targe 阅读全文
摘要:
一、Elasticsearch中父子表上传 二、Elasticsearch中父子表查询 1、通过父表查询子表 2、通过子表查询父表 阅读全文
摘要:
一、正则表达式的基本语法 二、python中的re模块 阅读全文
摘要:
一、清洗数据函数 1.清洗数据使用最多的函数之一应该是regexp 2.regexp主要是用来找到符合条件的数据,找到后会经常用到substringindex函数进行数据清洗 3.replace函数 4.concat拼接函数 二、时间函数 三、计算函数 1.分类后进行同类型之间数据的排序 (1)数据 阅读全文
摘要:
本文以爬取智联招聘上数据分析师职位信息为例,介绍一下scrapy爬虫编写的一般流程。 阅读全文