随笔分类 -  BigData

大数据相关知识
读完这100篇论文 就能成大数据高手【转】
摘要:百家之言,源自网络,好文共赏。 作者:Anil Madan 译者:张玉宏 文源:LinkeDin 转自:CSDN PayPal高级工程总监Anil Madan写了篇大数据的文章,近日CSDN对此进行了翻译。一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手。 开源(Ope 阅读全文

posted @ 2020-04-30 19:08 AI数据 阅读(919) 评论(0) 推荐(0)

Flink 更新中
摘要:一、介绍 Flink分层组件栈 API支持 对Streaming数据类应用,提供DataStream API 对批处理类应用,提供DataSet API(支持Java/Scala) Libraries支持 支持机器学习(FlinkML) 支持图分析(Gelly) 支持关系数据处理(Table) 支持 阅读全文

posted @ 2020-03-22 12:35 AI数据 阅读(561) 评论(0) 推荐(0)

Hadoop(四)小项目练习 更新中
摘要:一、Hadoop Java API 静态类实现Mapper类 @Public @Stable public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { public Mapper() { } protected void setup(Mapper 阅读全文

posted @ 2020-03-10 23:44 AI数据 阅读(570) 评论(0) 推荐(0)

大数据环境搭建
摘要:系统 centos7 远程连接工具MobaXterm 一、虚拟机 虚拟机配置 下载安装VMware Station,下载centos7 新建虚拟机 下一步 稍后安装操作系统,下一步 操作系统选择,下一步 修改名称和位置,下一步 下一步 完成 新建虚拟机右键,虚拟机设置,CD/DVD选择ISO映像文件 阅读全文

posted @ 2020-03-10 13:25 AI数据 阅读(3300) 评论(0) 推荐(0)

zookeeper
摘要:zookeeper的基本介绍,zookeeper核心概念,zookeeper集群搭建,zookeeper应用场景,ZAB协议,zookeeper选举算法 阅读全文

posted @ 2020-03-09 19:24 AI数据 阅读(683) 评论(0) 推荐(0)

CDH6.3 Centos7
摘要:按照官方文档安装即可 CentOS7 上搭建 CDH(6.3.0) 官方文档:https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/install_cm_cdh.html LZO安装:https://blog.csdn.net 阅读全文

posted @ 2019-11-23 16:38 AI数据 阅读(1208) 评论(0) 推荐(0)

CDHkafka脚本
摘要:启动客户端的命令 /opt/cloudera/parcels/KAFKA-4.0.0-1.4.0.0.p0.1/bin/kafka-console-producer --broker-list hadoop102:9092 --topic topic_start 去上面目录下找到kafka-cons 阅读全文

posted @ 2019-11-19 23:09 AI数据 阅读(426) 评论(0) 推荐(0)

flume源码
摘要:IDEA查看源码 IDEA快捷键 1 查看接口的实现类:Ctrl+Alt+B 选中按快捷键,然后跳到实现类的地方去 2 切换页面:Alt+<- 和 Alt+-> Alt+-> 3 查看Java方法调用树(被调/主调):Ctrl+Alt+H 分为调用当前方法的树、当前方法调用的下级方法 4 查看类继承 阅读全文

posted @ 2019-11-15 11:30 AI数据 阅读(1061) 评论(0) 推荐(1)

Cloudera Hadoop启用Kerberos认证
摘要:一、Kerberos 二、安装 node01服务器安装Kerberos的核心服务master KDC,node02和node03安装Kerberos client cm也安装在node01上了 1.master节点配置 在node01上 yum install krb5-server krb5-li 阅读全文

posted @ 2019-11-04 16:36 AI数据 阅读(3931) 评论(0) 推荐(0)

mysql安装
摘要:这里介绍两种方式 一、使用压缩包安装mysql 1.下载 选择相应版本,以5.7为例 https://dev.mysql.com/downloads/mysql/5.7.html#downloads 2.解压并按照依赖 解压缩下载的mysql安装包并且解压到指定目录(这里解压到/bigdata⽬目录 阅读全文

posted @ 2019-10-28 17:11 AI数据 阅读(378) 评论(0) 推荐(0)

阿里云被挖矿程序入侵
摘要:现在还有那么多挖矿的,这些人胡乱入侵别人的服务器,真无语 top命令发现cpu被占用接近100% 主要由两个networkservice进程引起的 搜索发现和该文作者经历一样,按其步骤删除相关文件,这些文件都在/etc目录下面 记录一次清除Linux挖矿病毒的经历(sysupdate, networ 阅读全文

posted @ 2019-10-23 15:44 AI数据 阅读(1219) 评论(0) 推荐(0)

Flink(一)集群配置
摘要:三台主机 centos6 已经完成的工作: 防火墙已关闭 主机名修改完毕,ssh免密登陆配置完成 jdk已安装 zookeeper已经部署并运行 hadoop已经部署并运行 版本:flink-1.8.2-bin-scala_2.11 上传或下载flink,解压缩 配置环境变量,建立软连接 将官网ha 阅读全文

posted @ 2019-10-23 13:07 AI数据 阅读(2280) 评论(0) 推荐(0)

由于阿里云磁盘空间导致hadoop的yarn节点处于UNHEALTHY状态
摘要:最初使用的阿里云云盘只有50G 正常运行的hadoop集群突然无法正常运行了,web页面显示节点为UNHEALTHY 使用df -m命令,发现一些节点磁盘空间占用达到了99%,因此要扩容磁盘空间 1.为云盘建立快照,以防出错 2.磁盘扩容 3.选择扩容容量,选在线扩容,付费 4.如果是centos7 阅读全文

posted @ 2019-10-22 14:23 AI数据 阅读(481) 评论(0) 推荐(0)

阿里云ssh免密登陆突然无效
摘要:无法自动登录node02,分发秘钥被拒绝 删除node02上的authorized_keys,重新ssh-copy-id node03,可以了 一、查看日志 Linux 日志系统 系统日志一般在/var/log下 发现 sshd[15720]: Authentication refused: bad 阅读全文

posted @ 2019-10-21 23:51 AI数据 阅读(1883) 评论(0) 推荐(0)

Hadoop(一)阿里云hadoop集群配置
摘要:集群配置 三台ECS云服务器 配置步骤 1.准备工作 1.1 创建/bigdata目录 mkdir /bigdatacd /bigdatamkdir /app 1.2修改主机名为node01、node02、node03 1.3修改hosts文件 vim /etc/hosts 添加node01~nod 阅读全文

posted @ 2019-10-20 01:29 AI数据 阅读(1870) 评论(0) 推荐(0)

zookeeper问题排查
摘要:一、无法启动 zookeeper之前可以很好的运行,由于zk集群不是正常的关闭,比如 强制Linux关闭,直接执行kill 命令zk的进程等原因导致zookeeper启动不了 启动命令后,查看状态,会发现没有启动 修改zoo.cfg中clientPort后可以启动 写脚本启动集群的zookeeper 阅读全文

posted @ 2019-10-11 14:45 AI数据 阅读(998) 评论(0) 推荐(0)

Hive速览
摘要:一、概述 Hive由Facebook开源,是一个构建在Hadoop之上的数据仓库工具 将结构化的数据映射成表 支持类SQL查询,Hive中称为HQL 1.读模式 2.Hive架构 3.使用Hive的原因 Hadoop数据分析的问题: MapReduce实现复杂查询逻辑开发难度大,周期长 开发速度无法 阅读全文

posted @ 2019-09-23 11:53 AI数据 阅读(584) 评论(0) 推荐(0)

Hbase速览
摘要:一、概述 理解为hadoop中的key-value存储,数据按列存储,基于HDFS和Zookeeper 1.应用 2.场景 适用场景: 存储格式:半结构化数据,结构化数据存储,Key-Value存储 数据版本:固定集合(多版本),定时删除(TTL) 更新:列族结构经常调整 写Pattern:高并发写 阅读全文

posted @ 2019-09-23 10:08 AI数据 阅读(612) 评论(0) 推荐(0)

Hadoop(三)YARN
摘要:Yet Another Resources Negotiator 从Hadoop2.0版本开始引入YARN,主要功能: 集群资源管理系统 负责集群的统一管理和调度 与客户端交互,处理客户端请求 一、基本架构 Master/Slave架构 资源管理和节点管理器组成 集群的机器启动nodemanager 阅读全文

posted @ 2019-09-22 18:17 AI数据 阅读(418) 评论(0) 推荐(0)

Hadoop(二)HDFS
摘要:海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一、HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息。nameno 阅读全文

posted @ 2019-09-22 16:23 AI数据 阅读(371) 评论(0) 推荐(0)

导航