随笔分类 - 大数据
摘要:在我们了解ETL测试之前,先了解有关商业智能和数据仓库的重要性。让我们开始吧 - 什么是BI? 商业智能是收集原始数据或业务数据并将其转化为有用和更有意义的信息的过程。原始数据是一个组织每日事务的记录,如与客户的互动,财务管理和员工管理等。这些数据将用于“报告,分析,数据挖掘,数据质量和解释,预测分
阅读全文
摘要:什么是大数据? 大数据是不能使用传统计算技术处理的大型数据集的集合。这些数据集的测试涉及各种工具,技术和框架来处理。大数据涉及数据创建,存储,检索和分析,在数量,多样性和速度方面都非常出色。您可以在这里了解有关大数据,Hadoop和Mapreduce的更多信息 在本教程中,我们将学习, 大数据测试策
阅读全文
摘要:https://www.cnblogs.com/yun111/archive/2012/12/11/2812420.html
阅读全文
摘要:https://blog.csdn.net/fengliaoai/article/details/89890303 http://www.xuexiluxian.net/hadoop-xuexi.html https://edu.51cto.com/mic-position/243.html?jzl
阅读全文
摘要:转:https://blog.csdn.net/qx12306/article/details/67014096 Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。Sqoop最早是作为Hado
阅读全文
大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化
摘要:第一阶段 Java基础 Linux基础 第二阶段 Hadoop 第三阶段 HBase Hive Sqoop Flume ZooKeeper Storm Kafka Redis MongoDB 第四阶段 Scala Spark 机器学习 第五阶段 Docker KVM虚拟化 OpenStack 搜索引
阅读全文
摘要:https://www.cnblogs.com/Yuanjing-Liu/p/9391964.html 目录 1、数据挖掘工具对比 2、Rapid Miner 3、Orange 4、Weka 4.1 介绍 4.2 使用准备 4.3 主要功能与使用 4.4 优缺点 4.5 开发资源 5、KNIME 5
阅读全文
摘要:转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 参考: 从源代码剖析Mahout推荐引擎 mahout 推荐系统示例 Mahout推
阅读全文
摘要:转载:https://blog.csdn.net/tcict/article/details/25955373 随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,对大数据的分析已经成为一个非常重
阅读全文
摘要:转载:https://blog.csdn.net/u013378306/article/details/87179289 Mahout 仅提供一些java的算法包,通过Mahout执行这些算法包,并把hdfs上的文件作为输入可以在hadoop上做分布式计算 提供的常用算法Mahout 提供了常用算法
阅读全文
摘要:转载:https://blog.csdn.net/shuke1991/article/details/51941152 Mahout是Hadoop系统基于MapReduce开发的数据挖掘/机器学习库,实现了大部分常用的数据挖掘算法。 Mahout提供的算法:Classification、Cluste
阅读全文
摘要:转:https://blog.csdn.net/a2011480169/article/details/51544664 在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不
阅读全文
摘要:转:https://www.e-learn.cn/content/qita/690288 Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。 Flume
阅读全文
摘要:转:https://www.aboutyun.com/thread-21544-1-1.html 问题导读:1.Hive 是什么? 2.Hive 架构分哪几部分? 3.Hive 文件格式是怎样的? 一、Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQ
阅读全文
摘要:转:http://www.imooc.com/article/271342 Hbase是什么? Hbase是一个架构在Hdfs文件系统上的列式存储,是开源的,分布式,面向列的数据库。适合于非结构化数据存储的数据库。 Hbase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,可以在廉价的PC S
阅读全文
摘要:转:cnblogs.com/zimo-jing/p/9028949.html Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoo
阅读全文
摘要:转载:https://blog.csdn.net/qq_43265673/article/details/100057878 文章目录第1章·Zookeeper概述。1.1.概述。1.2·特点1.3·数据结构。1.4·应用场景。1.5·下载地址 第2章·Zookeeper安装。2.1·本地模式安装部
阅读全文
摘要:转:https://blog.csdn.net/volitationLong/article/details/82706210 一、部署准备1. 安装介质zookeeper-3.4.13:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.
阅读全文
摘要:转载:https://blog.csdn.net/liyifan687/article/details/80104086 一、HBase介绍 HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表
阅读全文
摘要:转载:https://blog.csdn.net/shengmingqijiquan/article/details/52922009 HBase是一个构建在HDFS上的分布式列存储系统; HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲, HBa
阅读全文

浙公网安备 33010602011771号