随笔分类 -  大数据基础

摘要:一、HBase过滤器简介 Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down)。这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传输和客户端处 阅读全文
posted @ 2020-06-22 18:50 数据驱动 阅读(878) 评论(0) 推荐(0)
摘要:一、数据准备 为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。 1.1 员工表 -- 建表语句 CREATE TABLE emp( empno INT, -- 员工表编号 ename STRING 阅读全文
posted @ 2020-06-21 23:38 数据驱动 阅读(1966) 评论(0) 推荐(0)
摘要:Hive 常用DML操作 一、加载文件数据到表 1.1 语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOC 阅读全文
posted @ 2020-06-21 17:33 数据驱动 阅读(590) 评论(0) 推荐(0)
摘要:一、视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中 阅读全文
posted @ 2020-06-21 16:18 数据驱动 阅读(549) 评论(0) 推荐(0)
摘要:一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合 阅读全文
posted @ 2020-06-21 14:55 数据驱动 阅读(1121) 评论(0) 推荐(0)
摘要:一、Database 1.1 查看数据列表 show databases; 1.2 使用数据库 USE database_name; 1.3 新建数据库 语法: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name --DATABASE|SCH 阅读全文
posted @ 2020-06-21 14:05 数据驱动 阅读(532) 评论(0) 推荐(0)
摘要:一、Hive CLI 1.1 Help 使用 hive -H 或者 hive --help 命令可以查看所有命令的帮助,显示如下: usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. 阅读全文
posted @ 2020-06-21 11:07 数据驱动 阅读(1458) 评论(0) 推荐(0)
摘要:项目版本 构建需要: JDK1.7 Elasticsearch2.2.1 junit4.10 log4j1.2.17 spring-context3.2.0.RELEASE spring-core3.2.0.RELEASE spring-beans3.2.0.RELEASE spring-web3. 阅读全文
posted @ 2020-06-09 16:36 数据驱动 阅读(447) 评论(0) 推荐(0)
摘要:Elasticsearch是谁不重要,重要的是咱们都知道百度,谷歌这样的搜索巨头吧。它们的核心技术都利用了Elasticsearch,所以我们有必要对Elasticsearch了解下! 1.Elasticsearch简介 1.1 百度百科这样说 Elasticsearch是一个基于Lucense的搜 阅读全文
posted @ 2020-06-04 20:15 数据驱动 阅读(4717) 评论(0) 推荐(0)
摘要:第一节 初识 Flink 在数据激增的时代,催生出了一批计算框架。最早期比较流行的有MapReduce,然后有Spark,直到现在越来越多的公司采用Flink处理。Flink相对前两个框架真正做到了高吞吐,低延迟,高性能。 1. Flink 是什么? 1) Flink 的发展历史 在 2010 年至 阅读全文
posted @ 2020-06-01 16:41 数据驱动 阅读(1527) 评论(0) 推荐(0)
摘要:由于Kylin官网已经是中文的了,而且写的很详细,这里就不再重述。 学习右转即可。 这里说个遇到的问题,当在Kylin使用SQL关键字时,要加上双引号,并且里面的内容要大写,这个和MySql有点区别需要注意下。 系列传送门 阅读全文
posted @ 2020-05-21 00:03 数据驱动 阅读(292) 评论(0) 推荐(0)
摘要:一.Kylin是什么? Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 上的SQL查询接口及多维度分析(OLAP)能力以支持超大规模的数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin™ 令使用者仅需三步,即可实 阅读全文
posted @ 2020-05-19 23:34 数据驱动 阅读(2306) 评论(0) 推荐(0)
摘要:一、项目简介 这是一个道路拥堵情况分析预测项目。 它利用Kafka提供数据,Redis存储结果,然后用逻辑回归进行模型训练,最后根据训练的模型预测道路未来是否拥堵。 二、项目结构 ├─.idea │ └─codeStyles ├─data └─src └─main └─scala └─vip └─s 阅读全文
posted @ 2020-05-19 00:30 数据驱动 阅读(602) 评论(0) 推荐(0)
摘要:前言 随着人工智能的发展,机器学习成为一个热门的学科。机器学习说白了就是利用一些数学知识,通过代码实现分类,聚类,特征提取和回归。这些所谓的实现也叫算法。 大部分算法已经有人帮我们写好了类库,我们只需要调用即可实现。 常用的实现类库有两个:一个是SparkMLlib,一个是Scikit-lean。 阅读全文
posted @ 2020-05-16 17:04 数据驱动 阅读(609) 评论(0) 推荐(0)
摘要:一.前言 前面我们学习的是使用Scala和Java开发Spark。最近补充了下Python基础,那么就用Python开发下Spark。Python开发Spark简称PySpark。 二.环境准备 1.安装Python环境 安装方式有两种 使用原生方式安装 直接去官网下载,window下载 xxx_e 阅读全文
posted @ 2020-05-13 10:23 数据驱动 阅读(1305) 评论(0) 推荐(0)
摘要:1. 什么是Anaconda? Anaconda是一个开源的Python发行版本,python是一个编译器,如果不使用Anaconda那么安装起来会比较痛苦,各个库之间的依赖性就很难连接的很好。Anaconda可以看做Python的一个集成安装,里面集成了很多关于python科学计算的第三方库,安装 阅读全文
posted @ 2020-05-12 11:27 数据驱动 阅读(502) 评论(0) 推荐(0)
摘要:前言 由于AI的发展,包括Python集成了很多计算库,所以淡入了人们的视野,成为一个极力追捧的语言。 首先概括下Python中文含义是蟒蛇,它是一个胶水语言和一个脚本语言,胶水的意思是能和多种语言集成,脚本的意思是没有强制类型,直接解释执行,和PHP类似。 下面是对Python的一些基础语法介绍。 阅读全文
posted @ 2020-05-11 10:07 数据驱动 阅读(254) 评论(0) 推荐(0)
摘要:一、项目简介 这是一个车辆监控项目。主要实现了三个功能: 1.计算每一个区域车流量最多的前3条道路。 2.计算道路转换率 3.实时统计道路拥堵情况(当前时间,卡口编号,车辆总数,速度总数,平均速度) 二、项目结构 ├─TrafficBySparkAndKafka ├─data └─src ├─mai 阅读全文
posted @ 2020-05-08 17:54 数据驱动 阅读(1063) 评论(0) 推荐(0)
摘要:通过继承AccumulatorV2可以实现自定义累加器。 官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua 阅读全文
posted @ 2020-04-24 00:16 数据驱动 阅读(1436) 评论(0) 推荐(0)
摘要:一. Spark简介 1.1 前言 Apache Spark是一个基于内存的计算框架,它是Scala语言开发的,而且提供了一站式解决方案,提供了包括内存计算(Spark Core),流式计算(Spark Streaming),交互式查询(Spark SQL),图形计算(GraphX),机器学习(ML 阅读全文
posted @ 2020-04-20 11:26 数据驱动 阅读(865) 评论(0) 推荐(0)