摘要: http://blog.csdn.net/zjsghww/article/details/51638126 首先,C4.5是决策树算法的一种。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签。决策树为了达 阅读全文
posted @ 2018-03-02 14:13 天空之家 阅读(2819) 评论(1) 推荐(1) 编辑
摘要: http://blog.csdn.net/ychenfeng/article/details/74980531(还没有转全) Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统 阅读全文
posted @ 2018-02-28 13:40 天空之家 阅读(7628) 评论(0) 推荐(1) 编辑
摘要: https://www.cnblogs.com/forsaken627/articles/6512379.html Elasticsearch template Elasticsearch存在一个关键问题就是索引的设置及字段的属性指定,最常见的问题就是,某个字段我们并不希望ES对其进行分词,但如果使 阅读全文
posted @ 2018-02-26 16:41 天空之家 阅读(300) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch学习之深入聚合分析四 案例实战 https://www.cnblogs.com/sunfie/p/7101749.html 使用 Elasticsearch 构建快速数据分析系统 http://bbs.umeng.com/thread-12252-1-1.html 阅读全文
posted @ 2018-02-13 14:14 天空之家 阅读(111) 评论(0) 推荐(0) 编辑
摘要: Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 阅读全文
posted @ 2018-02-11 10:13 天空之家 阅读(1326) 评论(0) 推荐(0) 编辑
摘要: http://shiyanjun.cn/archives/526.html Impala与HBase整合实践 https://www.cnblogs.com/hd3013779515/tag/Storm/ Storm入门14章 阅读全文
posted @ 2018-02-09 16:37 天空之家 阅读(197) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch 架构原理 http://www.cnblogs.com/valor-xh/p/6096072.html Elasticsearch学习总结--原理篇 http://www.cnblogs.com/valor-xh/p/6096083.html 阅读全文
posted @ 2018-02-08 22:48 天空之家 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 在Elasticsearch中有许多术语和概念 1. 核心概念 Elasticsearch集群可以包含多个索引(indices)(数据库),每一个索引可以包含多个类型(types)(表),每一个类型包含多个文档(documents)(行),然后每个文档包含多个字段(Fields)(列) (1)Nea 阅读全文
posted @ 2018-02-08 22:16 天空之家 阅读(213) 评论(0) 推荐(0) 编辑
摘要: Kudu,支持快速分析的新型Hadoop存储系统:https://www.cnblogs.com/wuxian11/p/6478581.html 阅读全文
posted @ 2018-02-08 14:29 天空之家 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 配置全局路径:npm config set prefix “d:\nodejs\node_global” 配置缓存路径:npm config set cache “d:\nodejs\node_cache” 阅读全文
posted @ 2018-02-06 13:37 天空之家 阅读(93) 评论(0) 推荐(0) 编辑