2017 年 4月 29 日随笔档案 - 大数据和AI躺过的坑

2017年4月29日

Spark Tachyon实战应用（配置启动环境、运行spark和运行mapreduce）

摘要： Tachyon实战应用配置及启动环境修改spark-env.sh 启动HDFS 启动Tachyon Tachyon上运行Spark 添加core-site.xml 启动Spark集群读取文件并保存 Tachyon运行MapReduce 修改core-site.xml 启动YARN 运行MapR 阅读全文

posted @ 2017-04-29 21:41 大数据和AI躺过的坑阅读(507) 评论(0) 推荐(0)

Spark Tachyon的命令行使用

摘要： Tachyon命令行使用 Tachyon接口说明接口操作示例 copyFromLocal copyToLocal ls和lsr count cat mkdir、rm、rmr和touch pin和unpin Tachyon接口说明接口操作示例 copyFromLocal copyToLocal l 阅读全文

posted @ 2017-04-29 21:25 大数据和AI躺过的坑阅读(709) 评论(0) 推荐(0)

Tachyon的配置详解

摘要： Tachyon的配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置用户配置 Tachyon环境变量 Tachyon通用配置 TachyonMaster配置 TachyonWorker配置用户配置 1 Tachyon的配置这里以0 阅读全文

posted @ 2017-04-29 21:16 大数据和AI躺过的坑阅读(886) 评论(0) 推荐(0)

Spark Tachyon编译部署（含单机和集群模式安装）

摘要： Tachyon编译部署编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 1、Tachyon编译部署 Tachyon目前的最新发布版为0.7.1，其官方网址为http://tachyon-project.o 阅读全文

posted @ 2017-04-29 21:10 大数据和AI躺过的坑阅读(579) 评论(0) 推荐(0)

Spark MLlib协同过滤算法

摘要：算法说明协同过滤（Collaborative Filtering，简称CF，WIKI上的定义是：简单来说是利用某个兴趣相投、拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者，个人透过合作的机制给予资讯相当程度的回应（如评分）并记录下来以达到过滤的目的，进而帮助别人筛选资讯，回应不一定局限于特别感阅读全文

posted @ 2017-04-29 20:24 大数据和AI躺过的坑阅读(7355) 评论(1) 推荐(1)

Spark MLlib回归算法LinearRegression

摘要：算法说明线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法，只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归，在实际情况中大多数都是多元回归。线性回归（Linear Regression）问题属于监督学习（Supervised Le 阅读全文

posted @ 2017-04-29 20:05 大数据和AI躺过的坑阅读(2830) 评论(0) 推荐(0)

Spark MLlib聚类KMeans

摘要：算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之间的object尽可能相异。聚类算法是机器学习（或者说是数据挖掘更合适）中重要的一部分，除了最为简单的K-Means聚类算法外，比较常阅读全文

posted @ 2017-04-29 19:46 大数据和AI躺过的坑阅读(1736) 评论(0) 推荐(0)

Impala性能优化

摘要：不多说，直接上干货！ • 执行计划 – 查询sql执行之前，先对该sql做一个分析，列出需要完成这一项查询的详细方案 – 命令：explain sql、profile 要点： • 1、SQL优化，使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件（如果有其他程序产生阅读全文

posted @ 2017-04-29 18:07 大数据和AI躺过的坑阅读(6110) 评论(0) 推荐(0)

Impala通过JDBC方式访问

摘要：不多说，直接上干货！ • 配置： – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.passwo 阅读全文

posted @ 2017-04-29 18:05 大数据和AI躺过的坑阅读(20805) 评论(0) 推荐(0)

Impala与HBase整合

摘要：不多说，直接上干货！ Impala可以通过Hive外部表方式和HBase进行整合，步骤如下： • 步骤1：创建hbase 表，向表中添加数据 • 步骤2：创建hive表 • 步骤3：刷新Impala表更多参考 http://www.cloudera.com/content/cloudera/en/ 阅读全文

posted @ 2017-04-29 17:51 大数据和AI躺过的坑阅读(3792) 评论(0) 推荐(0)

Impala数据处理（加载和存储）

摘要：不多说，直接上干货！ Hive与Impala都是构建在Hadoop之上的数据查询工具，那么在实际的应用中，它们是如何加载和存储数据的呢？ Hive和Impala存储和加载表，和所有的关系型数据库一样，有自己的数据管理结构，从它的Server到Database再到表和视图。在其他的数据库中，表都是以阅读全文

posted @ 2017-04-29 17:48 大数据和AI躺过的坑阅读(5770) 评论(0) 推荐(1)

Impala SQL

摘要：不多说，直接上干货！其实，跟hive差不多，大家可以去参考我写的hive学习概念系列。 Impala SQL VS HiveQL 下面是Impala对基础数据类型和扩展数据类型的支持 • 此外，Impala不支持HiveQL以下特性： – 可扩展机制，例如：TRANSFORM、自定义文件格式、自定阅读全文

posted @ 2017-04-29 17:44 大数据和AI躺过的坑阅读(7038) 评论(0) 推荐(0)

Impala储存与分区

摘要：不多说，直接上干货！ hive的元数据存储在/user/hadoop/warehouse Impala的内部表也在/user/hadoop/warehouse。那两者怎么区分，看前面的第一列。下面是Impala对文件的格式及压缩类型的支持 • 添加分区方式 – 1、partitioned by 阅读全文

posted @ 2017-04-29 17:42 大数据和AI躺过的坑阅读(10792) 评论(0) 推荐(0)

Impala管理

摘要：这里，以后更新。 Impala的安装（含使用CM安装和手动安装）（图文详解） Impala的安装（含使用CM安装和手动安装）（图文详解）可以通过下面的链接来访问Impala的监护管理页面： • 查看StateStore – http://node1:25020/ • 查看Catalog 阅读全文

posted @ 2017-04-29 17:17 大数据和AI躺过的坑阅读(817) 评论(0) 推荐(0)

Impala shell详解

摘要：不多说，直接上干货！查看帮助文档刷新整个云数据去格式化，查询大数据量时可以提高性能则，效果就跟hive效果一样了。去格式化时显示列名指定分隔符查看对应版本执行查询文件（常用）常常把sql语句写到某文件中。比如vi test.tst 注意，impala是我的数据库，res是这个数据阅读全文

posted @ 2017-04-29 17:03 大数据和AI躺过的坑阅读(19571) 评论(0) 推荐(0)

Impala的优缺点

摘要：不多说，上干货！优点：缺点：阅读全文

posted @ 2017-04-29 16:20 大数据和AI躺过的坑阅读(1627) 评论(0) 推荐(0)

Impala的安装（含使用CM安装和手动安装）（图文详解）

摘要： Impala有两种安装方式： 1）使用CM安装Impala 2）手动安装Impala 注意：Impala不支持在Debian/Ubuntu, SuSE, RHEL/CentOS 6.5系统中安装。基于CM的Impala安装首先在CM端安装Hive，再安装Impala的组件。 Cloudera M 阅读全文

posted @ 2017-04-29 15:02 大数据和AI躺过的坑阅读(3657) 评论(0) 推荐(0)

Impala和Hive的关系（详解）

摘要： Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，功能还在不断的完善中。与Hive 阅读全文

posted @ 2017-04-29 14:45 大数据和AI躺过的坑阅读(74271) 评论(6) 推荐(7)

Impala架构

摘要： Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Quer 阅读全文

posted @ 2017-04-29 14:42 大数据和AI躺过的坑阅读(1771) 评论(0) 推荐(0)

Impala是什么？

摘要： Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impal 阅读全文

posted @ 2017-04-29 14:36 大数据和AI躺过的坑阅读(4177) 评论(0) 推荐(1)

Spark MLlib架构解析（含分类算法、回归算法、聚类算法和协同过滤）

摘要： Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析分类算法回归算法聚类算法协同过滤 MLlib的实用程序分析分类算法回归算法聚类算法协同过滤从架构图可以看出MLlib主要包含三个部分：底层基础：包括Spark的运行库、矩阵库和向量库；算法库：包含广阅读全文

posted @ 2017-04-29 14:23 大数据和AI躺过的坑阅读(7987) 评论(0) 推荐(1)

机器学习概念（博主推荐）

摘要：不多说，因最近科研的需要，为此从hadoop和spark领域，得结合机器学习/深度学习。为此，给大家带来进一步的干货！ 1、机器学习概念 1.1 机器学习的定义 1.2 机器学习的分类 1.2.1 监督学习 1.2.2 无监督学习 1.2.3 半监督学习 1.2.4 强化学习 1.3 机器学习的常见阅读全文

posted @ 2017-04-29 13:44 大数据和AI躺过的坑阅读(992) 评论(0) 推荐(0)

Flume的Storage&Master

摘要： storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。 Master是管理协调Agent和Collector的配置等信息，是flume集群的控制器。阅读全文

posted @ 2017-04-29 12:54 大数据和AI躺过的坑阅读(485) 评论(0) 推荐(0)

Flume的Collector

摘要： Collector的作用是将多个Agent的数据汇总后，加载到Storage中。它的source和sink与agent类似。数据源（source），如： collectorSource[(port)]：Collector source，监听端口汇聚数据。 autoCollectorSource：通阅读全文

posted @ 2017-04-29 12:53 大数据和AI躺过的坑阅读(1157) 评论(0) 推荐(0)

Flume的sink

摘要： Flume的sink console[("format")] ：直接将将数据显示在consolr上。 text(“txtfile”)：将数据写到文件txtfile中。 dfs(“dfsfile”)：将数据写到HDFS上的dfsfile文件中。 syslogTcp(“host”,port)：将数据通过阅读全文

posted @ 2017-04-29 12:51 大数据和AI躺过的坑阅读(1070) 评论(0) 推荐(0)

Flume的Events

摘要： Flume NG传输的数据的基本单位是event，如果是文本文件，通常是一行记录，这也是事务的基本单位。阅读全文

posted @ 2017-04-29 12:47 大数据和AI躺过的坑阅读(699) 评论(0) 推荐(0)

Flume的Agent

摘要： Flume的Agent text(“filename”)：将文件filename作为数据源，按行发送 tail(“filename”)：探测filename新产生的数据，按行发送出去 fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去 tailDir(“dirnam 阅读全文

posted @ 2017-04-29 12:46 大数据和AI躺过的坑阅读(1092) 评论(0) 推荐(0)

Flume的Channel

摘要： Channel：是一个存储地，接收source的输出，直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。阅读全文

posted @ 2017-04-29 12:44 大数据和AI躺过的坑阅读(1022) 评论(0) 推荐(0)

Flume的Source

摘要： Source：从Client收集数据，传递给Channel。可以接收外部源发送过来的数据。不同的 source，可以接受不同的数据格式。比如有目录池(spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。阅读全文

posted @ 2017-04-29 12:43 大数据和AI躺过的坑阅读(647) 评论(0) 推荐(0)

Flume的client

摘要： Client：生产数据，运行在一个独立的线程。阅读全文

posted @ 2017-04-29 12:42 大数据和AI躺过的坑阅读(563) 评论(0) 推荐(0)

Flume的核心概念

摘要： Event:一条数据 Client:生产数据，运行在一个独立的线程。 Agent （1）Sources、Channels、Sinks （2）其他组件：Interceptors、Channel Selectors、Sink Processor。阅读全文

posted @ 2017-04-29 12:41 大数据和AI躺过的坑阅读(578) 评论(0) 推荐(0)

Flume的可管理性

摘要： Flume的可管理性所有agent和Collector由master统一管理，这使得系统便于维护。多master情况，Flume利用 ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。 Fl 阅读全文

posted @ 2017-04-29 12:39 大数据和AI躺过的坑阅读(612) 评论(0) 推荐(0)

Flume的可扩展性

摘要： Flume的可扩展性：Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和 collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单阅读全文

posted @ 2017-04-29 12:37 大数据和AI躺过的坑阅读(717) 评论(0) 推荐(0)

Flume的可靠性

摘要： Flume的可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to- end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）， Store on failur 阅读全文

posted @ 2017-04-29 12:20 大数据和AI躺过的坑阅读(1252) 评论(0) 推荐(0)

Flume的data flow（数据流）

摘要： data flow描述了数据从产生，传输、处理并最终写入目标的一条路径。数据的采集的流向！如下图所示。阅读全文

posted @ 2017-04-29 12:17 大数据和AI躺过的坑阅读(1089) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告