博客园  :: 首页  :: 联系 :: 管理
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 36 下一页

2017年10月12日

摘要: 针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。 从设计架构,负载均衡,可扩展性和容错性等方面对 阅读全文

posted @ 2017-10-12 08:36 天戈朱 阅读(4569) 评论(0) 推荐(0) 编辑

2017年9月7日

摘要: 转载至 大数据杂谈 (BigdataTina2016),同时参考学习 http://www.cnblogs.com/barrywxx/p/4257166.html 进行整理。 使用SQL 引擎一词是有点随意的。例如Hive 不是一个引擎,它的框架使用MapReduce、TeZ 或者Spark 引擎去 阅读全文

posted @ 2017-09-07 06:58 天戈朱 阅读(7664) 评论(0) 推荐(0) 编辑

摘要: 转载至: http://lxw1234.com/archives/2015/04/101.htm mark - 参考学习 环境配置: hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node) hbase-0.94.6-cdh4.3.0 (4 nodes,maxHea 阅读全文

posted @ 2017-09-07 06:56 天戈朱 阅读(541) 评论(0) 推荐(0) 编辑

2017年9月6日

摘要: 华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HB 阅读全文

posted @ 2017-09-06 22:42 天戈朱 阅读(2692) 评论(0) 推荐(0) 编辑

2017年8月27日

摘要: 局部线性嵌入 (Locally linear embedding)是一种非线性降维算法,它能够使降维后的数据较好地保持原有 流形结构 。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。 如下图,使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(2807) 评论(0) 推荐(0) 编辑

摘要: PCA的降维原则是最小化投影损失,或者是最大化保留投影后数据的方差。LDA降维需要知道降维前数据分别属于哪一类,而且还要知道数据完整的高维信息。拉普拉斯特征映射 (Laplacian Eigenmaps,LE)看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。图中的每个顶点代表一个 阅读全文

posted @ 2017-08-27 18:10 天戈朱 阅读(1607) 评论(0) 推荐(0) 编辑

2017年8月21日

摘要: PCA (Principal Component Analysis) 主成份分析 也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维 阅读全文

posted @ 2017-08-21 23:46 天戈朱 阅读(1192) 评论(0) 推荐(0) 编辑

摘要: 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达, y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。使用降 阅读全文

posted @ 2017-08-21 23:45 天戈朱 阅读(1290) 评论(0) 推荐(0) 编辑

2017年8月18日

摘要: 测试验证环境 数据: 7w+ 条,数据结构如下图: 机器配置: R version: R包性能对比 全局函数及参数设置 ## 全局设置 remove(list=ls()) space_path <- c("E:\\RScore\\kmeans\\") setwd(space_path) Sys.se 阅读全文

posted @ 2017-08-18 23:04 天戈朱 阅读(744) 评论(0) 推荐(0) 编辑

摘要: 1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析。FCM(Fuzzy C-Means)算法是一种以隶属度来 阅读全文

posted @ 2017-08-18 23:03 天戈朱 阅读(2422) 评论(0) 推荐(0) 编辑

上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 36 下一页