大数据 - 随笔分类(第2页) - jareny

Spark集群安装部署

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 14:00 jareny 阅读(161) 评论(0) 推荐(0)

Scala高级语法-1

摘要：Spark课堂笔记 Spark生态圈：Spark Core ： RDD（弹性分布式数据集）Spark SQLSpark StreamingSpark MLLib：协同过滤，ALS，逻辑回归等等 --> 机器学习Spark Graphx ：图计算重点在前三章 Spark Core 一、什么是Spa 阅读全文

posted @ 2019-05-01 13:59 jareny 阅读(89) 评论(0) 推荐(0)

Scala高级语法

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:58 jareny 阅读(421) 评论(0) 推荐(0)

scala的集合框架与常用方法

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:57 jareny 阅读(376) 评论(0) 推荐(0)

scala的面向对象，类与构造器

摘要：1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分。3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行。4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算阅读全文

posted @ 2019-05-01 13:54 jareny 阅读(471) 评论(0) 推荐(0)

scala的简介安装与基础语法

摘要：大数据技术之Scala 第一篇：Scala编程语言一、Scala语言基础 1、Scala简介 Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。它也能运行于CLDC配置的Java ME 阅读全文

posted @ 2019-05-01 13:53 jareny 阅读(273) 评论(0) 推荐(0)

Elasticsearch（二）

摘要：大数据技术之Elasticsearch 一概述 1.1 什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种a 阅读全文

posted @ 2019-05-01 13:52 jareny 阅读(504) 评论(0) 推荐(0)

Elasticsearch（一）

摘要：# ElasticSearch课堂笔记 Search and analyze your data in real time. ## 1. 全文检索技术简介 ### 什么是搜索？搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息。阅读全文

posted @ 2019-05-01 13:51 jareny 阅读(114) 评论(0) 推荐(0)

Hbase-优化

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:47 jareny 阅读(250) 评论(0) 推荐(0)

Hbase-MR

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:46 jareny 阅读(125) 评论(0) 推荐(0)

Hbase安装部署

摘要：hbasegoogle: gfs -》 hdfsmapreduce -》 mapreducebigtable -》 hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是阅读全文

posted @ 2019-05-01 13:45 jareny 阅读(123) 评论(0) 推荐(0)

azkaban

摘要：Azkaban官网：https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工阅读全文

posted @ 2019-05-01 13:44 jareny 阅读(213) 评论(0) 推荐(0)

sqoop&azkaban-2

摘要：Azkaban官网：https://azkaban.github.io/Azkaban是一款开源工作流管理器。Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。工阅读全文

posted @ 2019-05-01 13:43 jareny 阅读(86) 评论(0) 推荐(0)

sqoop&azkaban-1

摘要：sqoopflume数据采集采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用：简化开发mys 阅读全文

posted @ 2019-05-01 13:42 jareny 阅读(113) 评论(0) 推荐(0)

Sqoop

摘要：sqoopflume数据采集采集日志数据sqoop数据迁移 hdfs->mysqlazkaban任务调度 flume->hdfs->shell->hive->sql->BIsqoop数据迁移=mapreduce处理离线数据整个过程就是数据导入处理导出过程直接使用mapsqoop作用：简化开发mys 阅读全文

posted @ 2019-05-01 13:41 jareny 阅读(161) 评论(0) 推荐(0)

hive函数&压缩

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:39 jareny 阅读(193) 评论(0) 推荐(0)

Flume

摘要：flume概述：Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。1）数据采集（爬虫\日志数据\flume）2）数据阅读全文

posted @ 2019-05-01 13:39 jareny 阅读(86) 评论(0) 推荐(0)

查询&压缩

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:38 jareny 阅读(111) 评论(0) 推荐(0)

DDL&DML操作

摘要：selectmin(sal)fromemptable 阅读全文

posted @ 2019-05-01 13:37 jareny 阅读(74) 评论(0) 推荐(0)

Hive数据类型

摘要：hive官网：http://hive.apache.org/Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。hive提供了SQL查询功能 hdfs分布式存储。阅读全文

posted @ 2019-05-01 13:35 jareny 阅读(177) 评论(0) 推荐(0)

随笔分类 - 大数据

公告