大数据基础 - 随笔分类(第4页) - 数据驱动

大数据基础---Hbase 过滤器详解

摘要：一、HBase过滤器简介 Hbase 提供了种类丰富的过滤器（filter）来提高数据处理的效率，用户可以通过内置或自定义的过滤器来对数据进行过滤，所有的过滤器都在服务端生效，即谓词下推（predicate push down）。这样可以保证过滤掉的数据不会被传送到客户端，从而减轻网络传输和客户端处阅读全文

posted @ 2020-06-22 18:50 数据驱动阅读(878) 评论(0) 推荐(0)

大数据基础---Hive数据查询详解

摘要：一、数据准备为了演示查询操作，这里需要预先创建三张表，并加载测试数据。数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。 1.1 员工表 -- 建表语句 CREATE TABLE emp( empno INT, -- 员工表编号 ename STRING 阅读全文

posted @ 2020-06-21 23:38 数据驱动阅读(1966) 评论(0) 推荐(0)

大数据基础---Hive常用DML操作

摘要：Hive 常用DML操作一、加载文件数据到表 1.1 语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOC 阅读全文

posted @ 2020-06-21 17:33 数据驱动阅读(590) 评论(0) 推荐(0)

大数据基础---Hive视图和索引

摘要：一、视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象，没有关联的存储 (Hive 3.0.0 引入的物化视图除外)，当查询引用视图时，Hive 可以将视图的定义与查询结合起来，例如将查询中阅读全文

posted @ 2020-06-21 16:18 数据驱动阅读(549) 评论(0) 推荐(0)

大数据基础---Hive分区表和分桶表

摘要：一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合阅读全文

posted @ 2020-06-21 14:55 数据驱动阅读(1121) 评论(0) 推荐(0)

大数据基础---Hive常用DDL操作

摘要：一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库语法： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCH 阅读全文

posted @ 2020-06-21 14:05 数据驱动阅读(532) 评论(0) 推荐(0)

大数据基础---HiveCLI和Beeline命令行的基本使用

摘要：一、Hive CLI 1.1 Help 使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助，显示如下： usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. 阅读全文

posted @ 2020-06-21 11:07 数据驱动阅读(1458) 评论(0) 推荐(0)

大数据基础---Elasticsearch搭建与应用

摘要：项目版本构建需要： JDK1.7 Elasticsearch2.2.1 junit4.10 log4j1.2.17 spring-context3.2.0.RELEASE spring-core3.2.0.RELEASE spring-beans3.2.0.RELEASE spring-web3. 阅读全文

posted @ 2020-06-09 16:36 数据驱动阅读(447) 评论(0) 推荐(0)

大数据基础---Elasticsearch是什么？

摘要：Elasticsearch是谁不重要，重要的是咱们都知道百度，谷歌这样的搜索巨头吧。它们的核心技术都利用了Elasticsearch，所以我们有必要对Elasticsearch了解下！ 1.Elasticsearch简介 1.1 百度百科这样说 Elasticsearch是一个基于Lucense的搜阅读全文

posted @ 2020-06-04 20:15 数据驱动阅读(4717) 评论(0) 推荐(0)

大数据基础---Flink学习总括

摘要：第一节初识 Flink 在数据激增的时代，催生出了一批计算框架。最早期比较流行的有MapReduce，然后有Spark，直到现在越来越多的公司采用Flink处理。Flink相对前两个框架真正做到了高吞吐，低延迟，高性能。 1. Flink 是什么？ 1) Flink 的发展历史在 2010 年至阅读全文

posted @ 2020-06-01 16:41 数据驱动阅读(1527) 评论(0) 推荐(0)

大数据基础---Kylin搭建与应用

摘要：由于Kylin官网已经是中文的了，而且写的很详细，这里就不再重述。学习右转即可。这里说个遇到的问题，当在Kylin使用SQL关键字时，要加上双引号，并且里面的内容要大写，这个和MySql有点区别需要注意下。系列传送门阅读全文

posted @ 2020-05-21 00:03 数据驱动阅读(292) 评论(0) 推荐(0)

大数据基础---Kylin是什么？

摘要：一.Kylin是什么？ Apache Kylin是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 上的SQL查询接口及多维度分析(OLAP）能力以支持超大规模的数据，最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin™ 令使用者仅需三步，即可实阅读全文

posted @ 2020-05-19 23:34 数据驱动阅读(2306) 评论(0) 推荐(0)

大数据基础---道路拥堵预测项目

摘要：一、项目简介这是一个道路拥堵情况分析预测项目。它利用Kafka提供数据，Redis存储结果，然后用逻辑回归进行模型训练，最后根据训练的模型预测道路未来是否拥堵。二、项目结构 ├─.idea │ └─codeStyles ├─data └─src └─main └─scala └─vip └─s 阅读全文

posted @ 2020-05-19 00:30 数据驱动阅读(602) 评论(0) 推荐(0)

大数据基础---机器学习与数据挖掘

摘要：前言随着人工智能的发展，机器学习成为一个热门的学科。机器学习说白了就是利用一些数学知识，通过代码实现分类，聚类，特征提取和回归。这些所谓的实现也叫算法。大部分算法已经有人帮我们写好了类库，我们只需要调用即可实现。常用的实现类库有两个：一个是SparkMLlib，一个是Scikit-lean。阅读全文

posted @ 2020-05-16 17:04 数据驱动阅读(609) 评论(0) 推荐(0)

大数据基础---PySpark

摘要：一.前言前面我们学习的是使用Scala和Java开发Spark。最近补充了下Python基础，那么就用Python开发下Spark。Python开发Spark简称PySpark。二.环境准备 1.安装Python环境安装方式有两种使用原生方式安装直接去官网下载，window下载 xxx_e 阅读全文

posted @ 2020-05-13 10:23 数据驱动阅读(1305) 评论(0) 推荐(0)

大数据基础---Anaconda安装

摘要：1. 什么是Anaconda？ Anaconda是一个开源的Python发行版本，python是一个编译器，如果不使用Anaconda那么安装起来会比较痛苦，各个库之间的依赖性就很难连接的很好。Anaconda可以看做Python的一个集成安装,里面集成了很多关于python科学计算的第三方库，安装阅读全文

posted @ 2020-05-12 11:27 数据驱动阅读(502) 评论(0) 推荐(0)

大数据基础---Python基础

摘要：前言由于AI的发展，包括Python集成了很多计算库，所以淡入了人们的视野，成为一个极力追捧的语言。首先概括下Python中文含义是蟒蛇，它是一个胶水语言和一个脚本语言，胶水的意思是能和多种语言集成，脚本的意思是没有强制类型，直接解释执行，和PHP类似。下面是对Python的一些基础语法介绍。阅读全文

posted @ 2020-05-11 10:07 数据驱动阅读(254) 评论(0) 推荐(0)

大数据基础---Spark车辆监控项目

摘要：一、项目简介这是一个车辆监控项目。主要实现了三个功能： 1.计算每一个区域车流量最多的前3条道路。 2.计算道路转换率 3.实时统计道路拥堵情况（当前时间，卡口编号，车辆总数，速度总数，平均速度）二、项目结构 ├─TrafficBySparkAndKafka ├─data └─src ├─mai 阅读全文

posted @ 2020-05-08 17:54 数据驱动阅读(1063) 评论(0) 推荐(0)

Spark中自定义累加器

摘要：通过继承AccumulatorV2可以实现自定义累加器。官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua 阅读全文

posted @ 2020-04-24 00:16 数据驱动阅读(1436) 评论(0) 推荐(0)

大数据基础---Spark整体复习

摘要：一. Spark简介 1.1 前言 Apache Spark是一个基于内存的计算框架，它是Scala语言开发的，而且提供了一站式解决方案，提供了包括内存计算（Spark Core）,流式计算（Spark Streaming）,交互式查询（Spark SQL），图形计算（GraphX），机器学习（ML 阅读全文

posted @ 2020-04-20 11:26 数据驱动阅读(865) 评论(0) 推荐(0)

数据驱动

随笔分类 - 大数据基础

公告