数据处理 - 随笔分类 - 雨中漫步人生

大数据之Spark SQL

摘要：1、Spark SQL简介¶ 说SparkSql之前，就不得不说下它的前身-Shark。首先，Hive是一个基于Hadoop的数据仓库工具，用户可以通过HiveQL语句将其转化为MapReduce任务来运行。其主要过程是用户输入HiveQL语句，进入到驱动模块后编译器会进行解析辨析，并有优化器对该操阅读全文

posted @ 2020-04-16 18:07 雨中漫步人生

Spark之基本原理

摘要：1、Spark基本特性¶ 1.高效性。Spark是基于内存的计算框架，数据处理过程中是将中间数据集放到内存中，运行速度提高100倍。 2.通用性。Spark提供了统一的解决方案。Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib 阅读全文

posted @ 2020-04-12 22:08 雨中漫步人生

sklearn数据预处理

摘要：1、数据预处理概述¶ 数据预处理是构建特征工程的基本环境，并且是提高算法精确度的有效手段。数据预处理需要根据数据本身的特性进行，不同的格式有不同的处理要求，比如无效的要剔除，缺失值要回填和冗余维度的选择等。大致主要分为三个步骤：数据的准备、转换和输出。本文主要利用sklearn讲解转换数据的常用方法阅读全文

posted @ 2020-02-17 14:50 雨中漫步人生

Graphviz图片显示中文乱码问题

摘要：1. 报错详情¶ 现象：graph.view()展示的图形显示中文为乱码。 In [40]: from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import tra 阅读全文

posted @ 2020-01-02 14:27 雨中漫步人生

欢迎来到“雨中漫步”的博客

二八定律，少即是多。

随笔分类 - 数据处理

公告