随笔分类 - 数据处理
摘要:1、Spark SQL简介¶ 说SparkSql之前,就不得不说下它的前身-Shark。首先,Hive是一个基于Hadoop的数据仓库工具,用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句,进入到驱动模块后编译器会进行解析辨析,并有优化器对该操
阅读全文
posted @ 2020-04-16 18:07
雨中漫步人生
摘要:1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架,数据处理过程中是将中间数据集放到内存中,运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib
阅读全文
posted @ 2020-04-12 22:08
雨中漫步人生
摘要:1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境,并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行,不同的格式有不同的处理要求,比如无效的要剔除,缺失值要回填和冗余维度的选择等。大致主要分为三个步骤:数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法
阅读全文
posted @ 2020-02-17 14:50
雨中漫步人生
摘要:1. 报错详情¶ 现象:graph.view()展示的图形显示中文为乱码。 In [40]: from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import tra
阅读全文
posted @ 2020-01-02 14:27
雨中漫步人生

浙公网安备 33010602011771号