打赏
上一页 1 ··· 83 84 85 86 87 88 89 90 91 ··· 180 下一页
摘要: Channel:是一个存储地,接收source的输出,直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。 阅读全文
posted @ 2017-04-29 12:44 大数据和AI躺过的坑 阅读(1017) 评论(0) 推荐(0)
摘要: Source:从Client收集数据,传递给Channel。 可以接收外部源发送过来的数据。 不同的 source,可以接受不同的数据格式。 比如有目录池(spooling directory)数据源,可以监控指定文件夹中的新文件变化,如果目录中有文件产生,就会立刻读取其内容。 阅读全文
posted @ 2017-04-29 12:43 大数据和AI躺过的坑 阅读(646) 评论(0) 推荐(0)
摘要: Client:生产数据,运行在一个独立的线程。 阅读全文
posted @ 2017-04-29 12:42 大数据和AI躺过的坑 阅读(562) 评论(0) 推荐(0)
摘要: Event:一条数据 Client:生产数据,运行在一个独立的线程。 Agent (1)Sources、Channels、Sinks (2)其他组件:Interceptors、Channel Selectors、Sink Processor。 阅读全文
posted @ 2017-04-29 12:41 大数据和AI躺过的坑 阅读(576) 评论(0) 推荐(0)
摘要: Flume的可管理性 所有agent和Collector由master统一管理,这使得系统便于维护。 多master情况,Flume利用 ZooKeeper和gossip,保证动态配置数据的一致性。 用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动 态加载。 Fl 阅读全文
posted @ 2017-04-29 12:39 大数据和AI躺过的坑 阅读(609) 评论(0) 推荐(0)
摘要: Flume的可扩展性:Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和 collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避 免了单 阅读全文
posted @ 2017-04-29 12:37 大数据和AI躺过的坑 阅读(714) 评论(0) 推荐(0)
摘要: Flume的可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to- end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。), Store on failur 阅读全文
posted @ 2017-04-29 12:20 大数据和AI躺过的坑 阅读(1250) 评论(0) 推荐(0)
摘要: data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。 数据的采集的流向!如下图所示。 阅读全文
posted @ 2017-04-29 12:17 大数据和AI躺过的坑 阅读(1088) 评论(0) 推荐(0)
摘要: 问题详情 在运行mahout中kmeans算法时,采取的是其默认输入路径/user/hadoop/testdata 和 默认输出路径/user/hadoop/output。 当然,你也可以用自定义的输入路径 然后,出现如下问题: 解决办法 说明你的默认输入路径或自定义输入路径下的数据源被损坏或不完全 阅读全文
posted @ 2017-04-28 13:24 大数据和AI躺过的坑 阅读(623) 评论(0) 推荐(0)
摘要: 继续 http://www.tuicool.com/articles/rmiEz2 http://www.cnblogs.com/jchubby/p/4454888.html 阅读全文
posted @ 2017-04-28 00:29 大数据和AI躺过的坑 阅读(435) 评论(0) 推荐(0)
上一页 1 ··· 83 84 85 86 87 88 89 90 91 ··· 180 下一页