大数据和AI躺过的坑

2017年4月29日

摘要： Channel：是一个存储地，接收source的输出，直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。阅读全文

posted @ 2017-04-29 12:44 大数据和AI躺过的坑阅读(1022) 评论(0) 推荐(0)

Flume的Source

摘要： Source：从Client收集数据，传递给Channel。可以接收外部源发送过来的数据。不同的 source，可以接受不同的数据格式。比如有目录池(spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。阅读全文

posted @ 2017-04-29 12:43 大数据和AI躺过的坑阅读(647) 评论(0) 推荐(0)

Flume的client

摘要： Client：生产数据，运行在一个独立的线程。阅读全文

posted @ 2017-04-29 12:42 大数据和AI躺过的坑阅读(563) 评论(0) 推荐(0)

Flume的核心概念

摘要： Event:一条数据 Client:生产数据，运行在一个独立的线程。 Agent （1）Sources、Channels、Sinks （2）其他组件：Interceptors、Channel Selectors、Sink Processor。阅读全文

posted @ 2017-04-29 12:41 大数据和AI躺过的坑阅读(578) 评论(0) 推荐(0)

Flume的可管理性

摘要： Flume的可管理性所有agent和Collector由master统一管理，这使得系统便于维护。多master情况，Flume利用 ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。 Fl 阅读全文

posted @ 2017-04-29 12:39 大数据和AI躺过的坑阅读(612) 评论(0) 推荐(0)

Flume的可扩展性

摘要： Flume的可扩展性：Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和 collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单阅读全文

posted @ 2017-04-29 12:37 大数据和AI躺过的坑阅读(717) 评论(0) 推荐(0)

Flume的可靠性

摘要： Flume的可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to- end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）， Store on failur 阅读全文

posted @ 2017-04-29 12:20 大数据和AI躺过的坑阅读(1252) 评论(0) 推荐(0)

Flume的data flow（数据流）

摘要： data flow描述了数据从产生，传输、处理并最终写入目标的一条路径。数据的采集的流向！如下图所示。阅读全文

posted @ 2017-04-29 12:17 大数据和AI躺过的坑阅读(1089) 评论(0) 推荐(0)

2017年4月28日

Error: org.apache.mahout.math.CardinalityException: Required cardinality 10 but got 30问题解决办法

摘要：问题详情在运行mahout中kmeans算法时，采取的是其默认输入路径/user/hadoop/testdata 和默认输出路径/user/hadoop/output。当然，你也可以用自定义的输入路径然后，出现如下问题：解决办法说明你的默认输入路径或自定义输入路径下的数据源被损坏或不完全阅读全文

posted @ 2017-04-28 13:24 大数据和AI躺过的坑阅读(625) 评论(0) 推荐(0)

Mahout项目开发环境搭建（Eclipse\MyEclipse + Maven）

摘要：继续 http://www.tuicool.com/articles/rmiEz2 http://www.cnblogs.com/jchubby/p/4454888.html 阅读全文

posted @ 2017-04-28 00:29 大数据和AI躺过的坑阅读(437) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告