随笔分类 -  数据处理

摘要:1、Spark SQL简介¶ 说SparkSql之前,就不得不说下它的前身-Shark。首先,Hive是一个基于Hadoop的数据仓库工具,用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句,进入到驱动模块后编译器会进行解析辨析,并有优化器对该操 阅读全文
posted @ 2020-04-16 18:07 雨中漫步人生
摘要:1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架,数据处理过程中是将中间数据集放到内存中,运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib 阅读全文
posted @ 2020-04-12 22:08 雨中漫步人生
摘要:1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境,并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行,不同的格式有不同的处理要求,比如无效的要剔除,缺失值要回填和冗余维度的选择等。大致主要分为三个步骤:数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法 阅读全文
posted @ 2020-02-17 14:50 雨中漫步人生
摘要:1. 报错详情¶ 现象:graph.view()展示的图形显示中文为乱码。 In [40]: from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import tra 阅读全文
posted @ 2020-01-02 14:27 雨中漫步人生