BigData - 随笔分类 - AI数据

读完这100篇论文就能成大数据高手【转】

摘要：百家之言，源自网络，好文共赏。作者：Anil Madan 译者：张玉宏文源：LinkeDin 转自：CSDN PayPal高级工程总监Anil Madan写了篇大数据的文章，近日CSDN对此进行了翻译。一共有100篇大数据的论文，涵盖大数据技术栈，全部读懂你将会是大数据的顶级高手。开源（Ope 阅读全文

posted @ 2020-04-30 19:08 AI数据阅读(919) 评论(0) 推荐(0)

Flink 更新中

摘要：一、介绍 Flink分层组件栈 API支持对Streaming数据类应用，提供DataStream API 对批处理类应用，提供DataSet API（支持Java/Scala） Libraries支持支持机器学习（FlinkML）支持图分析（Gelly）支持关系数据处理（Table）支持阅读全文

posted @ 2020-03-22 12:35 AI数据阅读(561) 评论(0) 推荐(0)

Hadoop(四)小项目练习更新中

摘要：一、Hadoop Java API 静态类实现Mapper类 @Public @Stable public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { public Mapper() { } protected void setup(Mapper 阅读全文

posted @ 2020-03-10 23:44 AI数据阅读(570) 评论(0) 推荐(0)

大数据环境搭建

摘要：系统 centos7 远程连接工具MobaXterm 一、虚拟机虚拟机配置下载安装VMware Station，下载centos7 新建虚拟机下一步稍后安装操作系统，下一步操作系统选择，下一步修改名称和位置，下一步下一步完成新建虚拟机右键，虚拟机设置，CD/DVD选择ISO映像文件阅读全文

posted @ 2020-03-10 13:25 AI数据阅读(3300) 评论(0) 推荐(0)

zookeeper

摘要：zookeeper的基本介绍，zookeeper核心概念，zookeeper集群搭建，zookeeper应用场景，ZAB协议，zookeeper选举算法阅读全文

posted @ 2020-03-09 19:24 AI数据阅读(683) 评论(0) 推荐(0)

CDH6.3 Centos7

摘要：按照官方文档安装即可 CentOS7 上搭建 CDH（6.3.0）官方文档：https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/install_cm_cdh.html LZO安装：https://blog.csdn.net 阅读全文

posted @ 2019-11-23 16:38 AI数据阅读(1208) 评论(0) 推荐(0)

CDHkafka脚本

摘要：启动客户端的命令 /opt/cloudera/parcels/KAFKA-4.0.0-1.4.0.0.p0.1/bin/kafka-console-producer --broker-list hadoop102:9092 --topic topic_start 去上面目录下找到kafka-cons 阅读全文

posted @ 2019-11-19 23:09 AI数据阅读(426) 评论(0) 推荐(0)

flume源码

摘要：IDEA查看源码 IDEA快捷键 1 查看接口的实现类：Ctrl+Alt+B 选中按快捷键，然后跳到实现类的地方去 2 切换页面：Alt+<- 和 Alt+-> Alt+-> 3 查看Java方法调用树(被调/主调)：Ctrl+Alt+H 分为调用当前方法的树、当前方法调用的下级方法 4 查看类继承阅读全文

posted @ 2019-11-15 11:30 AI数据阅读(1061) 评论(0) 推荐(1)

Cloudera Hadoop启用Kerberos认证

摘要：一、Kerberos 二、安装 node01服务器安装Kerberos的核心服务master KDC，node02和node03安装Kerberos client cm也安装在node01上了 1.master节点配置在node01上 yum install krb5-server krb5-li 阅读全文

posted @ 2019-11-04 16:36 AI数据阅读(3931) 评论(0) 推荐(0)

mysql安装

摘要：这里介绍两种方式一、使用压缩包安装mysql 1.下载选择相应版本，以5.7为例 https://dev.mysql.com/downloads/mysql/5.7.html#downloads 2.解压并按照依赖解压缩下载的mysql安装包并且解压到指定目录（这里解压到/bigdata⽬目录阅读全文

posted @ 2019-10-28 17:11 AI数据阅读(378) 评论(0) 推荐(0)

阿里云被挖矿程序入侵

摘要：现在还有那么多挖矿的，这些人胡乱入侵别人的服务器，真无语 top命令发现cpu被占用接近100% 主要由两个networkservice进程引起的搜索发现和该文作者经历一样，按其步骤删除相关文件，这些文件都在/etc目录下面记录一次清除Linux挖矿病毒的经历(sysupdate, networ 阅读全文

posted @ 2019-10-23 15:44 AI数据阅读(1219) 评论(0) 推荐(0)

Flink(一)集群配置

摘要：三台主机 centos6 已经完成的工作：防火墙已关闭主机名修改完毕，ssh免密登陆配置完成 jdk已安装 zookeeper已经部署并运行 hadoop已经部署并运行版本：flink-1.8.2-bin-scala_2.11 上传或下载flink，解压缩配置环境变量，建立软连接将官网ha 阅读全文

posted @ 2019-10-23 13:07 AI数据阅读(2280) 评论(0) 推荐(0)

由于阿里云磁盘空间导致hadoop的yarn节点处于UNHEALTHY状态

摘要：最初使用的阿里云云盘只有50G 正常运行的hadoop集群突然无法正常运行了，web页面显示节点为UNHEALTHY 使用df -m命令，发现一些节点磁盘空间占用达到了99%，因此要扩容磁盘空间 1.为云盘建立快照，以防出错 2.磁盘扩容 3.选择扩容容量，选在线扩容，付费 4.如果是centos7 阅读全文

posted @ 2019-10-22 14:23 AI数据阅读(481) 评论(0) 推荐(0)

阿里云ssh免密登陆突然无效

摘要：无法自动登录node02，分发秘钥被拒绝删除node02上的authorized_keys，重新ssh-copy-id node03，可以了一、查看日志 Linux 日志系统系统日志一般在/var/log下发现 sshd[15720]: Authentication refused: bad 阅读全文

posted @ 2019-10-21 23:51 AI数据阅读(1883) 评论(0) 推荐(0)

Hadoop（一）阿里云hadoop集群配置

摘要：集群配置三台ECS云服务器配置步骤 1.准备工作 1.1 创建/bigdata目录 mkdir /bigdatacd /bigdatamkdir /app 1.2修改主机名为node01、node02、node03 1.3修改hosts文件 vim /etc/hosts 添加node01~nod 阅读全文

posted @ 2019-10-20 01:29 AI数据阅读(1870) 评论(0) 推荐(0)

zookeeper问题排查

摘要：一、无法启动 zookeeper之前可以很好的运行，由于zk集群不是正常的关闭，比如强制Linux关闭，直接执行kill 命令zk的进程等原因导致zookeeper启动不了启动命令后，查看状态，会发现没有启动修改zoo.cfg中clientPort后可以启动写脚本启动集群的zookeeper 阅读全文

posted @ 2019-10-11 14:45 AI数据阅读(998) 评论(0) 推荐(0)

Hive速览

摘要：一、概述 Hive由Facebook开源，是一个构建在Hadoop之上的数据仓库工具将结构化的数据映射成表支持类SQL查询，Hive中称为HQL 1.读模式 2.Hive架构 3.使用Hive的原因 Hadoop数据分析的问题： MapReduce实现复杂查询逻辑开发难度大，周期长开发速度无法阅读全文

posted @ 2019-09-23 11:53 AI数据阅读(584) 评论(0) 推荐(0)

Hbase速览

摘要：一、概述理解为hadoop中的key-value存储，数据按列存储，基于HDFS和Zookeeper 1.应用 2.场景适用场景：存储格式：半结构化数据，结构化数据存储，Key-Value存储数据版本：固定集合（多版本），定时删除（TTL）更新：列族结构经常调整写Pattern：高并发写阅读全文

posted @ 2019-09-23 10:08 AI数据阅读(612) 评论(0) 推荐(0)

Hadoop(三）YARN

摘要：Yet Another Resources Negotiator 从Hadoop2.0版本开始引入YARN，主要功能：集群资源管理系统负责集群的统一管理和调度与客户端交互，处理客户端请求一、基本架构 Master/Slave架构资源管理和节点管理器组成集群的机器启动nodemanager 阅读全文

posted @ 2019-09-22 18:17 AI数据阅读(418) 评论(0) 推荐(0)

Hadoop(二）HDFS

摘要：海量数据处理分而治之核心思想：把数据分发到多个节点移动计算到数据附近计算节点进行本地数据处理优选顺序，次之随机读一、HDFS概述修改，先删除，再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据，以及每个文件块的列表，以及块所在datanode的信息。nameno 阅读全文

posted @ 2019-09-22 16:23 AI数据阅读(371) 评论(0) 推荐(0)

AI数据

随笔分类 - BigData