2016 年 12月 4 日随笔档案 - 大数据和AI躺过的坑

2016年12月4日

摘要： Hive与JDBC示例在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。在hive安装目录下的bin，使用下面命令进行开启: hive -service hiveserver & //Hive低版本提供的服务是：Hiveserver hive --service 阅读全文

posted @ 2016-12-04 16:49 大数据和AI躺过的坑阅读(2888) 评论(0) 推荐(0)

Spark Streaming基础概念

摘要：为了更好地理解Spark Streaming 子框架的处理机制，必须得要自己弄清楚这些最基本概念。 1、离散流（Discretized Stream，DStream）：这是Spark Streaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在Spark Streaming中对阅读全文

posted @ 2016-12-04 12:33 大数据和AI躺过的坑阅读(1059) 评论(0) 推荐(0)

Spark Streaming概述

摘要： Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。其中包括：资源管理框架，Apache YARN、Apache Mesos；基于内存的分布式文件系统，Tachyon；随后是Spark，更上面则是实现各种功能的系统，比如机器学习MLli 阅读全文

posted @ 2016-12-04 12:16 大数据和AI躺过的坑阅读(1165) 评论(0) 推荐(0)

Spark SQL入门案例之人力资源系统数据处理

摘要：通过该案例，给出一个比较完整的、复杂的数据处理案例，同时给出案例的详细解析。人力资源系统的管理内容组织结构图 1）人力资源系统的数据库与表的构建。 2）人力资源系统的数据的加载。 3）人力资源系统的数据的查询。职工基本信息职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i 阅读全文

posted @ 2016-12-04 10:10 大数据和AI躺过的坑阅读(1140) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告