随笔分类 - 大数据
Hadoop,hbase,hive,strom,spark,flink,beam等大数据系列
摘要:1、MongoDB 介绍 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。主要解决的是海量数据的访问效率问题,为WEB应用提供可扩展的高性能数据存储解决方案。当数据量达到50GB以上的时候,MongoDB的数据库访问速度是MySQL的10倍以上。MongoDB的并发读写效率不是特别
阅读全文
posted @ 2019-11-02 16:13
左手编程右手诗
摘要:大数据技术栈 Hadoop 历史: https://www.jikexueyuan.com/course/677_1.html?ss=1 1. Google大数据与Hadoop对比 2. 大数据分类 2.1 根据数据类型分类 2.1.1 结构化数据 能够用数据或统一的结构加以表示,人们称之为结构化数
阅读全文
posted @ 2019-10-13 11:29
左手编程右手诗
摘要:一、大数据的来源 1.人类活动 2.计算机 3.物理世界 二、大数据采集设备 1.科研数据 (1)大型强子对撞机 (2)射电望远镜 (3)电子显微镜 2.网络数据 我们可以利用数据中心采集网络中的数据。 三、大数据采集方法 1.科研数据 2.网络数据 爬虫(慎用) 3.系统日志 (1)Scribe是
阅读全文
posted @ 2019-09-02 08:06
左手编程右手诗
摘要:1、大数据流程图 2、大数据各个环节主要技术 2.1、数据处理主要技术 Sqoop:(发音:skup)作为一款开源的离线数据传输工具,主要用于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以将一个关系数据库中数据导入Hadoop的HDFS中, 也可以将H
阅读全文
posted @ 2019-09-02 08:01
左手编程右手诗
摘要:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行。 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用。我这里啊,先描述ETL工具的通用功能,再来描述作为ETL工具其中的一种(Kettle)是如何来提供这
阅读全文
posted @ 2019-06-14 18:53
左手编程右手诗
摘要:一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of var
阅读全文
posted @ 2019-05-30 16:34
左手编程右手诗
摘要:大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。 一、数据采集
阅读全文
摘要:资源列表: 关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键-值数据模型 图形数据模型 NewSQL数据库 列式数据库 时间序列数据库 类SQL处理 数据摄取 服务编程 调度 机器学习 基准测试 安全性 系统部署 应用程序 搜索引擎与框
阅读全文
摘要:推荐:史上最全的“大数据”学习资源(上) 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困
阅读全文

浙公网安备 33010602011771号