小石小石摩西摩西

2020年9月20日

摘要：基于seaborn模块来对数据之间的相关性进行可视化展示已经是司空见惯的事情了，在我之前的文章里面也有相关的实现和介绍，这里主要就是对seaborn提供的所有色系来进行对比，提供一组数据跑出来的样例图吧，方便需要的人直接对比进行选择。热力图可视化部分的代码实现如下所示： 1 def heapMap 阅读全文

posted @ 2020-09-20 16:37 小石小石摩西摩西阅读(10252) 评论(1) 推荐(0)

3.5.2 索引

摘要： 1.导入三方库 1 import numpy as np 2 import pandas as pd 3 df = pd.read_csv('table.csv',index_col='ID') #用来指定表格的索引值 4 5 df.head(2) SchoolClassGenderAddres 阅读全文

posted @ 2020-09-20 15:40 小石小石摩西摩西阅读(145) 评论(0) 推荐(0)

拓展-相关矩阵图

摘要： 1.导入相关库 1 import numpy as np 2 import pandas as pd 3 import seaborn as sns 4 import matplotlib.pyplot as plt 5 %matplotlib inline 6 7 plt.rcParams[' 阅读全文

posted @ 2020-09-20 15:31 小石小石摩西摩西阅读(1152) 评论(0) 推荐(0)

可视化——图表

摘要： 1.导入相关库 1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 5 #%matplotlib inline #可以内嵌绘图 6 7 plt.rcParams['font.sans-s 阅读全文

posted @ 2020-09-20 15:26 小石小石摩西摩西阅读(372) 评论(0) 推荐(0)

3.5.4 分组、合并、透视表

摘要： 1.导入三方库 import numpy as npimport pandas as pd df = pd.read_csv('table.csv',index_col='ID') #用来指定表格的索引值df.head(2) SchoolClassGenderAddressHeightWeight 阅读全文

posted @ 2020-09-20 15:14 小石小石摩西摩西阅读(206) 评论(0) 推荐(0)

3.5.3 数据排序；重复数值、缺失值处理

摘要： 1.导入三方库 import numpy as npimport pandas as pd df = pd.read_csv('table.csv',index_col='ID') #用来指定表格的索引值df.head(2) SchoolClassGenderAddressHeightWeig 阅读全文

posted @ 2020-09-20 15:13 小石小石摩西摩西阅读(269) 评论(0) 推荐(0)

3.5.1 pandas基础

摘要： 1.导入三方库 import numpy as npimport pandas as pd 查看库的版本 pd.__version__ '1.0.5' 2.数据文件的导入和导出 1）xlsx文件 shuju_xlsx = pd.read_excel('table.xlsx') shuju_xlsx2 阅读全文

posted @ 2020-09-20 15:09 小石小石摩西摩西阅读(263) 评论(0) 推荐(0)

3.3 numpy

摘要： 1.三方库导入 import numpy as np '{}'.format(np.typeDict.values()) "dict_values([<class 'numpy.bool_'>, <class 'numpy.bool_'>, <class 'numpy.int8'>, <class 阅读全文

posted @ 2020-09-20 15:08 小石小石摩西摩西阅读(220) 评论(0) 推荐(0)

数据准备和特征工程

摘要：数据准备和特征工程 1.感知数据 1-1文件中的数据 1.1.1CSV文件 pd.read_csv(csv_file, index_col=0) index_col=1默认读取数据的第一列是索引 df_new.to_csv("work/files/ten_bicycle.csv") 保存成csv文件阅读全文

posted @ 2020-09-20 15:07 小石小石摩西摩西阅读(543) 评论(0) 推荐(1)

2.4函数

摘要： 1.自定义函数 def szys(a,b,c): if c == '求和': d = a + b elif c == '求乘积': d = a * b elif c == '求幂': d = a ** b else: d = a - b return d a = int(input('请输入a:\n 阅读全文

posted @ 2020-09-20 15:01 小石小石摩西摩西阅读(311) 评论(0) 推荐(0)

2.3语句与控制流

摘要： 1.条件语句 1）if-else num1 = 45num2 = 36if num1==num2: print('两个数值是相等的。')else: print('两个数值不相等。') 两个数值不相等。 2）if-elif-else num3 = int(input('请输入你的年龄：\n'))i 阅读全文

posted @ 2020-09-20 14:59 小石小石摩西摩西阅读(162) 评论(0) 推荐(0)

2.2数据结构与序列

摘要： 1.列表 liebiao = ['编号89757','石景文','David','Bob',45,66] len(liebiao) 6 用索引来访问list中每一个位置的元素，索引是从0开始的 liebiao[1] '石景文' liebiao[-1] 66 liebiao[5] 66 1）引用传递阅读全文

posted @ 2020-09-20 14:58 小石小石摩西摩西阅读(265) 评论(0) 推荐(0)

2.1Python基础知识

摘要： 2.1.1 标识符用来标识某个实体的符号。在编程中通常指给变量、常量、函数、语句块的命名。标识符命名注意事项： 1）标识符的第一个字符必须是26个字母（大小写不限定）或下划线（键盘上加号左边的符号） >>> 4_zhou_4 = 11 File "<ipython-input-1-b78d82c 阅读全文

posted @ 2020-09-20 14:56 小石小石摩西摩西阅读(292) 评论(0) 推荐(0)

2020年9月16日

五、MySQL安装

摘要： MySQL安装 MySQL安装使用 yum 在线安装 MySQL $ yum -y install wget # 安装 Linux 下载工具 wget$ cd /usr/local $ wget -i -c http://dev.mysql.com/get/mysql57-community-re 阅读全文

posted @ 2020-09-16 23:03 小石小石摩西摩西阅读(58) 评论(0) 推荐(0)

四、Hadoop HA 集群搭建

摘要： Hadoop HA 集群搭建 Hadoop HA 集群搭建Hadoop 完全分布式环境搭建集群规划集群部署前提Hadoop伪分布式环境搭建配置IP映射安装 Java 与 Hadoop配置 Hadoop配置 MapReduce 与 YARN集群配置配置基本参数配置 SSH 免密登录格式化 HDFS启动阅读全文

posted @ 2020-09-16 23:02 小石小石摩西摩西阅读(212) 评论(0) 推荐(0)

三、Sqoop 数据迁移工具

摘要： Sqoop 数据迁移工具由于传统数据库的成熟以及广泛的应用，目前大多数场景下数据管理与分析系统都是建立在关系型数据库基础之上的，数据的采集、加工、处理都是在关系型数据库总完成的。要实现大数据的处理与分析还需要把数据从关系型数据库导入 Hadoop 平台，利用 Hadoop 平台强大的数据处理能力来阅读全文

posted @ 2020-09-16 23:01 小石小石摩西摩西阅读(559) 评论(0) 推荐(0)

二、Hive数据仓库技术

摘要： Hive数据仓库技术 Hive数据仓库技术Hive 简介Hive与传统关系型数据库Hive 架构设计Hive数据单元数据存储模型安装配置 Hive 环境Metastore的三种运行模式Metastore 配置属性搭建Hive环境内置derby版外置MySQL版Hive数据库及表操作基本数据类型复杂数阅读全文

posted @ 2020-09-16 22:59 小石小石摩西摩西阅读(543) 评论(0) 推荐(0)

一、Apache Hadoop

摘要： Apache Hadoop Apache Hadoop大数据时代的发展趋势一数据将成为资产什么是大数据？大数据时代的关键技术Hadoop 概述和介绍Hadoop的生态圈Hadoop 发行版Hadoop 优缺点HDFS 分布式文件系统HDFS 体系结构NameNode元数据管理机制Hadoop环境搭建阅读全文

posted @ 2020-09-16 22:58 小石小石摩西摩西阅读(238) 评论(0) 推荐(0)

php程序设计环境搭建

摘要：环境搭建利用phpstudy、JetBrains PhpStorm搭建开发环境 phpstudy 点击（phpstudy）链接可下载百度云链接（右击复制链接）按照提示安装即可（记住安装路径） JetBrains PhpStorm（推荐官网下载）百度云链接（右击复制链接）激活前按照提示安装即阅读全文

posted @ 2020-09-16 18:08 小石小石摩西摩西阅读(206) 评论(0) 推荐(0)

6.搭建sqoop

摘要：搭建sqoop 搭建sqoop1.解压安装包2.添加环境变量3.添加mysql驱动4.添加配置文件5.查看是否配置成功 1.解压安装包在/opt目录下新建sqoop文件夹，上传sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz tar -zxvf sqoop-1.4.7.bi 阅读全文

posted @ 2020-09-16 10:07 小石小石摩西摩西阅读(143) 评论(0) 推荐(0)

5.搭建HBase

摘要：搭建HBase 搭建HBase1.解压HBase安装包2.配置环境变量3.修改HBase配置信息4.文件分发5.启动HBase 1.解压HBase安装包在/opt目录下新建hbase,将hbase-1.2.6-bin.tar.gz上传到该文件夹下 tar -xvf hbase-1.2.6-bin. 阅读全文

posted @ 2020-09-16 10:06 小石小石摩西摩西阅读(153) 评论(0) 推荐(0)

4.搭建Hive2.X

摘要：搭建Hive2.X 搭建Hive2.XHive1.安装部署3.运行Hive4.测试Hive5.进行文件分发 Hive Hive 是基于 Hadoop 的⼀个数据仓库，可以将结构化的数据⽂件映射为⼀张表，并提供类 sql 查询功能，Hive 底层将 sql 语句转化为 MapReduce 任务运⾏。阅读全文

posted @ 2020-09-16 10:03 小石小石摩西摩西阅读(263) 评论(0) 推荐(0)

3.搭建Zookeeper

摘要：搭建Zookeeper 搭建Zookeeper介绍Zookeeper作用：注意：1.集群规划2.解压安装3.配置zoo.cfg文件4.将配置好的文件进行文件分发5.进行启动测试介绍Zookeeper作用： Apache ZooKeeper是一种高可用性服务，用于维护少量协调数据，通知客户端该数据的阅读全文

posted @ 2020-09-16 10:02 小石小石摩西摩西阅读(131) 评论(0) 推荐(0)

2.搭建Flume

摘要：搭建Flume 搭建Flume1.下载解压(官网)2.配置flume3.配置环境变量4.进行文件传输配置slave5.Flume部署示例(CSDN)4.1 Avro(以下还没操作修改)4.2 Spool4.3 其它 1.下载解压(官网) 在/opt目录下新建目录flume 将下载好的apache-f 阅读全文

posted @ 2020-09-16 10:00 小石小石摩西摩西阅读(203) 评论(0) 推荐(0)

2020年8月31日

1.搭建hadoop

摘要：搭建Hadoop 1.平台基本介绍 Hadoop的核心由3个部分组成： HDFS: Hadoop Distributed File System，分布式文件系统，hdfs还可以再细分为NameNode、SecondaryNameNode、DataNode。 YARN: Yet Another Res 阅读全文

posted @ 2020-08-31 23:37 小石小石摩西摩西阅读(254) 评论(0) 推荐(0)

小石小石摩西摩西

欢迎来到我的菜园子！！!

公告