打赏
摘要: Tachyon实战应用 配置及启动环境 修改spark-env.sh 启动HDFS 启动Tachyon Tachyon上运行Spark 添加core-site.xml 启动Spark集群 读取文件并保存 Tachyon运行MapReduce 修改core-site.xml 启动YARN 运行MapR 阅读全文
posted @ 2017-04-29 21:41 大数据和AI躺过的坑 阅读(507) 评论(0) 推荐(0)
摘要: Tachyon命令行使用 Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal ls和lsr count cat mkdir、rm、rmr和touch pin和unpin Tachyon接口说明 接口操作示例 copyFromLocal copyToLocal l 阅读全文
posted @ 2017-04-29 21:25 大数据和AI躺过的坑 阅读(709) 评论(0) 推荐(0)
摘要: Tachyon的配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置 用户配置 1 Tachyon的配置 这里以0 阅读全文
posted @ 2017-04-29 21:16 大数据和AI躺过的坑 阅读(886) 评论(0) 推荐(0)
摘要: Tachyon编译部署 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 1、Tachyon编译部署 Tachyon目前的最新发布版为0.7.1,其官方网址为http://tachyon-project.o 阅读全文
posted @ 2017-04-29 21:10 大数据和AI躺过的坑 阅读(579) 评论(0) 推荐(0)
摘要: 算法说明 协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投、拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选资讯,回应不一定局限于特别感 阅读全文
posted @ 2017-04-29 20:24 大数据和AI躺过的坑 阅读(7355) 评论(1) 推荐(1)
摘要: 算法说明 线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归,在实际情况中大多数都是多元回归。 线性回归(Linear Regression)问题属于监督学习(Supervised Le 阅读全文
posted @ 2017-04-29 20:05 大数据和AI躺过的坑 阅读(2830) 评论(0) 推荐(0)
摘要: 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常 阅读全文
posted @ 2017-04-29 19:46 大数据和AI躺过的坑 阅读(1736) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! • 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生 阅读全文
posted @ 2017-04-29 18:07 大数据和AI躺过的坑 阅读(6110) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! • 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.passwo 阅读全文
posted @ 2017-04-29 18:05 大数据和AI躺过的坑 阅读(20805) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表 更多参考 http://www.cloudera.com/content/cloudera/en/ 阅读全文
posted @ 2017-04-29 17:51 大数据和AI躺过的坑 阅读(3792) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到表和视图。 在其他的数据库中,表都是以 阅读全文
posted @ 2017-04-29 17:48 大数据和AI躺过的坑 阅读(5770) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! 其实,跟hive差不多,大家可以去参考我写的hive学习概念系列。 Impala SQL VS HiveQL 下面是Impala对基础数据类型和扩展数据类型的支持 • 此外,Impala不支持HiveQL以下特性: – 可扩展机制,例如:TRANSFORM、自定义文件格式、自定 阅读全文
posted @ 2017-04-29 17:44 大数据和AI躺过的坑 阅读(7038) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! hive的元数据存储在/user/hadoop/warehouse Impala的内部表也在/user/hadoop/warehouse。 那两者怎么区分,看前面的第一列。 下面是Impala对文件的格式及压缩类型的支持 • 添加分区方式 – 1、partitioned by 阅读全文
posted @ 2017-04-29 17:42 大数据和AI躺过的坑 阅读(10792) 评论(0) 推荐(0)
摘要: 这里, 以后更新。 Impala的安装(含使用CM安装 和 手动安装)(图文详解) Impala的安装(含使用CM安装 和 手动安装)(图文详解) 可以通过下面的链接来访问Impala的监护管理页面: • 查看StateStore – http://node1:25020/ • 查看Catalog 阅读全文
posted @ 2017-04-29 17:17 大数据和AI躺过的坑 阅读(817) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 查看帮助文档 刷新整个云数据 去格式化,查询大数据量时可以提高性能 则,效果就跟hive效果一样了。 去格式化时显示列名 指定分隔符 查看对应版本 执行查询文件(常用) 常常把sql语句写到某文件中。 比如vi test.tst 注意,impala是我的数据库,res是这个数据 阅读全文
posted @ 2017-04-29 17:03 大数据和AI躺过的坑 阅读(19571) 评论(0) 推荐(0)
摘要: 不多说,上干货! 优点: 缺点: 阅读全文
posted @ 2017-04-29 16:20 大数据和AI躺过的坑 阅读(1627) 评论(0) 推荐(0)
摘要: Impala有两种安装方式: 1)使用CM安装Impala 2)手动安装Impala 注意:Impala不支持在Debian/Ubuntu, SuSE, RHEL/CentOS 6.5系统中安装。 基于CM的Impala安装 首先在CM端安装Hive,再安装Impala的组件。 Cloudera M 阅读全文
posted @ 2017-04-29 15:02 大数据和AI躺过的坑 阅读(3657) 评论(0) 推荐(0)
摘要: Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。 与Hive 阅读全文
posted @ 2017-04-29 14:45 大数据和AI躺过的坑 阅读(74271) 评论(6) 推荐(7)
摘要: Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Quer 阅读全文
posted @ 2017-04-29 14:42 大数据和AI躺过的坑 阅读(1771) 评论(0) 推荐(0)
摘要: Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impal 阅读全文
posted @ 2017-04-29 14:36 大数据和AI躺过的坑 阅读(4177) 评论(0) 推荐(1)
摘要: Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析 分类算法 回归算法 聚类算法 协同过滤 MLlib的实用程序分析 分类算法 回归算法 聚类算法 协同过滤 从架构图可以看出MLlib主要包含三个部分: 底层基础:包括Spark的运行库、矩阵库和向量库; 算法库:包含广 阅读全文
posted @ 2017-04-29 14:23 大数据和AI躺过的坑 阅读(7987) 评论(0) 推荐(1)
摘要: 不多说,因最近科研的需要,为此从hadoop和spark领域,得结合机器学习/深度学习。为此,给大家带来进一步的干货! 1、机器学习概念 1.1 机器学习的定义 1.2 机器学习的分类 1.2.1 监督学习 1.2.2 无监督学习 1.2.3 半监督学习 1.2.4 强化学习 1.3 机器学习的常见 阅读全文
posted @ 2017-04-29 13:44 大数据和AI躺过的坑 阅读(992) 评论(0) 推荐(0)
摘要: storage是存储系统,可以是一个普通file,也可以是HDFS,HIVE,HBase,分布式存储等。 Master是管理协调Agent和Collector的配置等信息,是flume集群的控制器。 阅读全文
posted @ 2017-04-29 12:54 大数据和AI躺过的坑 阅读(485) 评论(0) 推荐(0)
摘要: Collector的作用是将多个Agent的数据汇总后,加载到Storage中。它的source和sink与agent类似。 数据源(source),如: collectorSource[(port)]:Collector source,监听端口汇聚数据。 autoCollectorSource:通 阅读全文
posted @ 2017-04-29 12:53 大数据和AI躺过的坑 阅读(1157) 评论(0) 推荐(0)
摘要: Flume的sink console[("format")] :直接将将数据显示在consolr上。 text(“txtfile”):将数据写到文件txtfile中。 dfs(“dfsfile”):将数据写到HDFS上的dfsfile文件中。 syslogTcp(“host”,port):将数据通过 阅读全文
posted @ 2017-04-29 12:51 大数据和AI躺过的坑 阅读(1070) 评论(0) 推荐(0)
摘要: Flume NG传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。 阅读全文
posted @ 2017-04-29 12:47 大数据和AI躺过的坑 阅读(699) 评论(0) 推荐(0)
摘要: Flume的Agent text(“filename”):将文件filename作为数据源,按行发送 tail(“filename”):探测filename新产生的数据,按行发送出去 fsyslogTcp(5140):监听TCP的5140端口,并且接收到的数据发送出去 tailDir(“dirnam 阅读全文
posted @ 2017-04-29 12:46 大数据和AI躺过的坑 阅读(1092) 评论(0) 推荐(0)
摘要: Channel:是一个存储地,接收source的输出,直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。 阅读全文
posted @ 2017-04-29 12:44 大数据和AI躺过的坑 阅读(1022) 评论(0) 推荐(0)
摘要: Source:从Client收集数据,传递给Channel。 可以接收外部源发送过来的数据。 不同的 source,可以接受不同的数据格式。 比如有目录池(spooling directory)数据源,可以监控指定文件夹中的新文件变化,如果目录中有文件产生,就会立刻读取其内容。 阅读全文
posted @ 2017-04-29 12:43 大数据和AI躺过的坑 阅读(647) 评论(0) 推荐(0)
摘要: Client:生产数据,运行在一个独立的线程。 阅读全文
posted @ 2017-04-29 12:42 大数据和AI躺过的坑 阅读(563) 评论(0) 推荐(0)
摘要: Event:一条数据 Client:生产数据,运行在一个独立的线程。 Agent (1)Sources、Channels、Sinks (2)其他组件:Interceptors、Channel Selectors、Sink Processor。 阅读全文
posted @ 2017-04-29 12:41 大数据和AI躺过的坑 阅读(578) 评论(0) 推荐(0)
摘要: Flume的可管理性 所有agent和Collector由master统一管理,这使得系统便于维护。 多master情况,Flume利用 ZooKeeper和gossip,保证动态配置数据的一致性。 用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动 态加载。 Fl 阅读全文
posted @ 2017-04-29 12:39 大数据和AI躺过的坑 阅读(612) 评论(0) 推荐(0)
摘要: Flume的可扩展性:Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和 collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避 免了单 阅读全文
posted @ 2017-04-29 12:37 大数据和AI躺过的坑 阅读(717) 评论(0) 推荐(0)
摘要: Flume的可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to- end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。), Store on failur 阅读全文
posted @ 2017-04-29 12:20 大数据和AI躺过的坑 阅读(1252) 评论(0) 推荐(0)
摘要: data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。 数据的采集的流向!如下图所示。 阅读全文
posted @ 2017-04-29 12:17 大数据和AI躺过的坑 阅读(1089) 评论(0) 推荐(0)