打赏
摘要: Tachyon实战应用 配置及启动环境 修改spark-env.sh 启动HDFS 启动Tachyon Tachyon上运行Spark 添加core-site.xml 启动Spark集群 读取文件并保存 Tachyon运行MapReduce 修改core-site.xml 启动YARN 运行MapR 阅读全文
posted @ 2017-04-29 21:41 大数据和AI躺过的坑 阅读(505) 评论(0) 推荐(0)
摘要: Tachyon命令行使用 Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal ls和lsr count cat mkdir、rm、rmr和touch pin和unpin Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal l 阅读全文
posted @ 2017-04-29 21:25 大数据和AI躺过的坑 阅读(707) 评论(0) 推荐(0)
摘要: Tachyon的配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 1 Tachyon的配置 这里以0 阅读全文
posted @ 2017-04-29 21:16 大数据和AI躺过的坑 阅读(881) 评论(0) 推荐(0)
摘要: Tachyon编译部署 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 1、Tachyon编译部署 Tachyon目前的最新发布版为0.7.1,其官方网址为http://tachyon-project.o 阅读全文
posted @ 2017-04-29 21:10 大数据和AI躺过的坑 阅读(578) 评论(0) 推荐(0)
摘要: 算法说明 协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投、拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选资讯,回应不一定局限于特别感 阅读全文
posted @ 2017-04-29 20:24 大数据和AI躺过的坑 阅读(7349) 评论(1) 推荐(1)
摘要: 算法说明 线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归,在实际情况中大多数都是多元回归。 线性回归(Linear Regression)问题属于监督学习(Supervised Le 阅读全文
posted @ 2017-04-29 20:05 大数据和AI躺过的坑 阅读(2825) 评论(0) 推荐(0)
摘要: 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常 阅读全文
posted @ 2017-04-29 19:46 大数据和AI躺过的坑 阅读(1731) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! • 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生 阅读全文
posted @ 2017-04-29 18:07 大数据和AI躺过的坑 阅读(6105) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! • 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.passwo 阅读全文
posted @ 2017-04-29 18:05 大数据和AI躺过的坑 阅读(20801) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表 更多参考 http://www.cloudera.com/content/cloudera/en/ 阅读全文
posted @ 2017-04-29 17:51 大数据和AI躺过的坑 阅读(3791) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到表和视图。 在其他的数据库中,表都是以 阅读全文
posted @ 2017-04-29 17:48 大数据和AI躺过的坑 阅读(5768) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! 其实,跟hive差不多,大家可以去参考我写的hive学习概念系列。 Impala SQL VS HiveQL 下面是Impala对基础数据类型和扩展数据类型的支持 • 此外,Impala不支持HiveQL以下特性: – 可扩展机制,例如:TRANSFORM、自定义文件格式、自定 阅读全文
posted @ 2017-04-29 17:44 大数据和AI躺过的坑 阅读(7034) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! hive的元数据存储在/user/hadoop/warehouse Impala的内部表也在/user/hadoop/warehouse。 那两者怎么区分,看前面的第一列。 下面是Impala对文件的格式及压缩类型的支持 • 添加分区方式 – 1、partitioned by 阅读全文
posted @ 2017-04-29 17:42 大数据和AI躺过的坑 阅读(10786) 评论(0) 推荐(0)
摘要: 这里, 以后更新。 Impala的安装(含使用CM安装 和 手动安装)(图文详解) Impala的安装(含使用CM安装 和 手动安装)(图文详解) 可以通过下面的链接来访问Impala的监护管理页面: • 查看StateStore – http://node1:25020/ • 查看Catalog 阅读全文
posted @ 2017-04-29 17:17 大数据和AI躺过的坑 阅读(814) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 查看帮助文档 刷新整个云数据 去格式化,查询大数据量时可以提高性能 则,效果就跟hive效果一样了。 去格式化时显示列名 指定分隔符 查看对应版本 执行查询文件(常用) 常常把sql语句写到某文件中。 比如vi test.tst 注意,impala是我的数据库,res是这个数据 阅读全文
posted @ 2017-04-29 17:03 大数据和AI躺过的坑 阅读(19515) 评论(0) 推荐(0)
摘要: 不多说,上干货! 优点: 缺点: 阅读全文
posted @ 2017-04-29 16:20 大数据和AI躺过的坑 阅读(1624) 评论(0) 推荐(0)
摘要: Impala有两种安装方式: 1)使用CM安装Impala 2)手动安装Impala 注意:Impala不支持在Debian/Ubuntu, SuSE, RHEL/CentOS 6.5系统中安装。 基于CM的Impala安装 首先在CM端安装Hive,再安装Impala的组件。 Cloudera M 阅读全文
posted @ 2017-04-29 15:02 大数据和AI躺过的坑 阅读(3649) 评论(0) 推荐(0)
摘要: Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。 与Hive 阅读全文
posted @ 2017-04-29 14:45 大数据和AI躺过的坑 阅读(74196) 评论(6) 推荐(7)
摘要: Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Quer 阅读全文
posted @ 2017-04-29 14:42 大数据和AI躺过的坑 阅读(1770) 评论(0) 推荐(0)
摘要: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impal 阅读全文
posted @ 2017-04-29 14:36 大数据和AI躺过的坑 阅读(4174) 评论(0) 推荐(1)