随笔分类 - 大数据之路
只有不断地学习,才能成功。
摘要:hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢。 特点:数据本地化,减少网络io。 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征。 通常输入的数据首先在逻辑上(注意这里不是真正物理上划分)将会分片split,每个分片上构建一个m
阅读全文
摘要:什么是MapReduce 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后
阅读全文
摘要:一、HDFS概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 通透
阅读全文
摘要:这里我提供 服务端和客户端的两个jar包的百度云,也是我使用的 链接:https://pan.baidu.com/s/11a3LT-ENZ8n9IF19-VjmWA 提取码:bdls 离线安装Mysql 1°、查看mysql的依赖 rpm -qa | grep mysql 2°、删除mysql的依赖
阅读全文
摘要:Hadoop 基本概念 一、Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统 用于存储大量的数据 (2
阅读全文
摘要:一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、
阅读全文
摘要:前提工作: 克隆2台虚拟机完成后:新的2台虚拟机,请务必依次修改3台虚拟机的ip地址和主机名称【建议三台主机名称依次叫做:master、node1、node2 】 上一篇博客 (三台虚拟机都要开机) Hadoop2.6.0 的压缩包,这里我提供百度云,没有的可以进行下载 链接:https://pan
阅读全文
摘要:1、安装vmware,务必以管理员身份运行 操作系统(CentOS 6.5)的配置 准备工作:虚拟机安装三台linux 本次测试是 centos 6.5,(三台虚拟机的系统时间保持一致) *安装jdk(在另外一个文档中) *克隆虚拟机 *在vmware设置-克隆(虚拟机要关机,jdk要配置好) 选择
阅读全文
摘要:为什么使用Lambda表达式?(做为初学者接触这个新的语法,会很懵逼,说道理,我在接触到这一块的时候,语法规则我看到了也很懵逼,因为这个和逻辑的关系不是很大,但就是作为一种新的语法出现,一时间很难接受。所以,只要我们多加练习,熟悉了就会接受了,记住,要多加练习!!就像你和一个刚刚学习Java的人来说
阅读全文
摘要:上一节,介绍了VMware的下载与安装、安装CentOS 在企业中,我们大多数是不会有界面化操作的,领导也不会直接给你账户的,我们需要自己从外部链接到Linux系统进行操作,对Linux系统的操作都在外部。 比较常用的Xshell 这里我同样给出百度云链接: 链接:https://pan.baidu
阅读全文
摘要:好了,从今天开始就开始正式的进入大数据道路的轨道上了,当然了,Java 也是需要不断地在日后进行反复地学习,熟练掌握。(这里我要说一下,Java种还有一些I/O流、Lambda表达式和一些常用工具类有关的博客没有更新、在后面的学习中,我会抽空进行补充。) 在此之前,希望每个学习大数据的童鞋们,电脑的
阅读全文
摘要:遇到这个 Java Serializable 序列化这个接口,我们可能会有如下的问题 a,什么叫序列化和反序列化b,作用。为啥要实现这个 Serializable 接口,也就是为啥要序列化c,serialVersionUID 这个的值到底是在怎么设置的,有什么用。有的是1L,有的是一长串数字,迷惑i
阅读全文
摘要:今天我们就来学习一下maven,怎么说呢,maven更像是一种管理的工具,实现的原理是使用插件。 举个例子,比如说,一个公司需要做一个项目,这个项目又分成了很多的模块,每个模块又分成了许多的业务等等,这些需要许许多多的小组进行进行,最后再进行整合。 那么,就有一个很大的问题,IT技术发展这么快的时代
阅读全文
摘要:要求,实现用户选择增删改查。 给出mysql文件,朋友们可以自己运行导入到自己的数据库中: /* Navicat MySQL Data Transfer Source Server : mysql Source Server Version : 50557 Source Host : 127.0.0
阅读全文
摘要:一、概述 JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。是Java访问数据库的标准规范 JDBC提供了一种基准,据此可以构建更高级的工具和接
阅读全文
摘要:众所周知,我们电脑中有许许多多的文件夹和文件,文件的形式也有许多不同的格式,文件夹中也可以新建文件夹的存在,也就是多层的一步一步的嵌套。 我们想要实现I/O操作,就必须知道硬盘上文件的表现形式。 而Java就提供了一个类FIle供我们使用。 File: 文件和目录(文件夹)路径名的抽象表现形式 构造
阅读全文
摘要:从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒。 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和F
阅读全文
摘要:1.1 正则表达式 1.2 简介 Regular Expression 正则表达式 常简称为: regex、正则 正则表达式是一整套约束字符串的语法规则,独立于任何编程语言 正则表达式 方便、灵活、功能强大,多部分编程语言都对正则表达式提供了支持 我们通常把正则作为一个工具,进行字符串的 校验、获取
阅读全文
摘要:java解析XML的四种方式: XML是一种通用的数据交换格式,它的平台无关性、语言无关性、系统无关性、给数据集成与交互带来了极大的方便。XML在不同的语言环境中解析方式都是一样的,只不过实现的语法不同而已。 XML的解析方式分为四种:1、DOM解析;2、SAX解析;3、JDOM解析;4、DOM4J
阅读全文
摘要:哎,怎么感觉自己变得懒了起来,更新博客的频率变得慢了起来,可能是因为最近得知识开始变得杂变得难了起来,之前在上课的时候,也没有好好听这一方面的知识,所以,现在可以说是在学的新的知识,要先去把新的知识思路屡了一遍,自己实现了代码,把整个过程以及规则搞懂了,我才会来总结博客。 说个有关这节知识的相关内容
阅读全文

浙公网安备 33010602011771号