posted @ 2017-10-28 08:51 天戈朱 阅读(1406) 评论(0) 推荐(0)
摘要:
判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。 阅读全文
摘要:
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理;对应的批量计算,更准确的说法是bounded data(processing),亦即有明确边界的数据的处理。 近年来流式计算框架编 阅读全文
posted @ 2017-10-14 18:40 天戈朱 阅读(3690) 评论(0) 推荐(0)
摘要:
Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature(当前:1.0.0-rc0,参见:https://github.com/apache/kafka/releases),它提供了对存储于Kafka内的数据进行流式处理和分析的功能。其主要特点如下: Kafka S 阅读全文
posted @ 2017-10-14 18:40 天戈朱 阅读(2112) 评论(0) 推荐(2)
摘要:
KSQL是基于Kafka的Streams API进行构建的流式SQL引擎,KSQL降低了进入流处理的门槛,提供了一个简单的、完全交互式的SQL接口,用于处理Kafka的数据。 KSQL是一套基于Apache 2.0许可开源的、分布式的、可扩展的、可靠的和实时的组件。支持多种流式操作,包括聚合(agg 阅读全文
posted @ 2017-10-14 18:40 天戈朱 阅读(666) 评论(0) 推荐(0)
摘要:
针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 从设计架构,负载均衡,可扩展性和容错性等方面对 阅读全文
posted @ 2017-10-12 08:36 天戈朱 阅读(4898) 评论(0) 推荐(0)
摘要:
转载至 大数据杂谈 (BigdataTina2016),同时参考学习 http://www.cnblogs.com/barrywxx/p/4257166.html 进行整理。 使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去 阅读全文
posted @ 2017-09-07 06:58 天戈朱 阅读(7739) 评论(0) 推荐(0)
摘要:
转载至: http://lxw1234.com/archives/2015/04/101.htm mark - 参考学习 环境配置: hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node) hbase-0.94.6-cdh4.3.0 (4 nodes,maxHea 阅读全文
posted @ 2017-09-07 06:56 天戈朱 阅读(565) 评论(0) 推荐(0)
摘要:
华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HB 阅读全文
posted @ 2017-09-06 22:42 天戈朱 阅读(2728) 评论(0) 推荐(0)
摘要:
局部线性嵌入 (Locally linear embedding)是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。 如下图,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据 阅读全文
posted @ 2017-08-27 18:10 天戈朱 阅读(2865) 评论(0) 推荐(0)
摘要:
PCA的降维原则是最小化投影损失,或者是最大化保留投影后数据的方差。LDA降维需要知道降维前数据分别属于哪一类,而且还要知道数据完整的高维信息。拉普拉斯特征映射 (Laplacian Eigenmaps,LE)看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。图中的每个顶点代表一个 阅读全文
posted @ 2017-08-27 18:10 天戈朱 阅读(1712) 评论(0) 推荐(0)
浙公网安备 33010602011771号