随笔分类 -  021-大数据技术

摘要:1 创建表 create ‘表名’,’列族名称1’, ’列族名称2’, ’列族名称3’, 2 向一个单元格赋值 put ’表名’,’行键’,’列族名称1:列名’,’值’ 3 获得单元格的值 get ’表名’,‘行键’,{COLUMN=>’列族名称1:列名’} 4 禁用和删除 enable ’表名’ 阅读全文
posted @ 2021-03-15 23:26 从程序员到CTO 阅读(33) 评论(0) 推荐(0)
摘要:04-HBase(分布式数据库)-01-简介 Java开发 HDFS 文件系统fs,以64M为块进行存储管理。其逻辑概念是文件file.其接口是read,write. HBase 是数据库管理系统dbms,同类产品是mysql,mondb,redis等。其逻辑概念是库,表,行,列。 面向列,有利于水 阅读全文
posted @ 2021-03-05 12:15 从程序员到CTO 阅读(69) 评论(0) 推荐(0)
摘要:读数据 import java.io.BufferedReader; import java.io.InputStreamReader; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSyst 阅读全文
posted @ 2021-02-26 19:27 从程序员到CTO 阅读(36) 评论(0) 推荐(0)
摘要:03-HDFS-01-模块结构 hadoop的存储方式,有点像scci硬盘,坏一个节点无所谓。随时插拔增减。 1.0 版本里,计算和资源调度在一个模块里。 2.0版本里: 资源调度YARN,独立成一个模块。MapReduce是YARN支持的第一个计算框架,是批处理硬盘计算框架。除此之外,还支持批处理 阅读全文
posted @ 2021-02-25 20:12 从程序员到CTO 阅读(37) 评论(0) 推荐(0)
摘要:02-Hadoop-01-简介 Java开发 1. 历史 hadoop从nutch而来,nutch又是从lucene而来。 lucene >nutch搜索引擎 >hadoop文本搜索库 2002年,nutch无法存储海量网页 2003.google.gfs论文 >2004.nutch.ndfs >h 阅读全文
posted @ 2021-02-15 11:51 从程序员到CTO 阅读(96) 评论(0) 推荐(0)
摘要:1 三次信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计 阅读全文
posted @ 2021-02-11 21:10 从程序员到CTO 阅读(793) 评论(0) 推荐(0)
摘要:大数据技术,也是数据技术,是对数据进行采集,存储,计算的处理过程。按照这些处理过程,可以分为以下几个板块。 大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 阅读全文
posted @ 2021-02-03 20:32 从程序员到CTO 阅读(91) 评论(0) 推荐(0)

交流加我QQ:39667545