11 2018 档案
摘要:首先要打开zookeeper,其次打开kafka,关闭时要先关闭kafka再关闭zookeeper 启动zookeeperzookeeper-server-start.sh config/zookeeper.properties 启动kafkakafka-server...
阅读全文
摘要:-----------------scala-spark org.apache.spark spark-core_2.11 2.3.0 ...
阅读全文
摘要:https://yq.aliyun.com/articles/423918阿里云服务器快速搭建自己的个人网站 https://www.aliyun.com/jiaocheng/127216.html如何快速搭建个人网站(服务器配置篇) https://blog.csd...
阅读全文
摘要:管理centos服务器的时候常会对文件进行一些常规操作,除了ftp之外了解在ssh下必要的文件操作命令那也是必不可少的,以下摘录一些常用的文件操作命令:查看ip:ip addr文件操作: ls ####查看目录中的文件#### ls -F ####查看目录中的文件##...
阅读全文
摘要:1.简介Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。因为...
阅读全文
摘要:MySQL安装图解前言:下载地址 链接:https://pan.baidu.com/s/1BMzQmMcZMCvixKBsnCkFrw 提取码:tec2 一、MYSQL的安装1、打开下载的mysql安装文件mysql-5.5.27-win32.zip,双击解压缩,运...
阅读全文
摘要:Spark数据倾斜(数据分布不均匀)数据倾斜发生时的现象:绝大多数task(任务)执行得都非常快,但个别task执行极慢。 OOM(内存溢出),这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个...
阅读全文
摘要:PipeLine Pipeline:管道, 在spark mllib中,作用主要是来定义计算的流程。模型的保存等。 相当于提供了一个工具类,可以让我们更方便的使用spark mllib 推荐:在使用spa...
阅读全文
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前...
阅读全文
摘要:1. 文件相关 快捷键 动作定义 Ctrl-O 打开文件 Ctrl-N 新建文件 Ctrl-S 保存文件 Ctrl-Alt-S 文件另存为 Ctrl-Shift-S 保存所有打开文件 Ctrl-P 打印 Alt-F4 退出...
阅读全文
摘要:/* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 ...
阅读全文
摘要:ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实...
阅读全文
摘要:Scala面向对象、函数式编程、更高层的并发模型—里面包含编译器、类库它不存在成员变量,通过object(单例)取代函数处理:可以吧函数化成一个参数传过去Object:入口类关键字-项目入口 类似于Java中的main方法Def:函数声明—定义一个方法/函数Val:常...
阅读全文
摘要:众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS)。Kafka的EOS主要体现在3个方面:幂等producer:保证发送单个分区的消息只会发送一次,不会出现重复消息 事务(t...
阅读全文
摘要:RDD:Resilient Distributed Dataset(弹性分布式数据集)弹性:数据集的可恢复型原因:在分布式环境下,运算节点很容易出问题,会造成数据的丢失,rdd可以在数据丢失的背景下恢复数据。数据恢复的技术:1.基本备份2.基于日志(hadoop na...
阅读全文
摘要:1.创建maven工程创建project--Java创建module--maven2.添加依赖 org.apache.spark spark-core_2.11 2.3.0 ...
阅读全文
摘要:两种方式: a.每一台机器都配一个本地文件系统上的yum仓库 file:////package/path/ (不推荐因为需要在每台机器上配置) b.在局域网内配置一台节点(server-base)的本地文件系统yum仓库,然后将其发布到web服务器中,其他节...
阅读全文
摘要:一、依赖 com.sleepycat je 5.0.73 org.apache.pdfbox pdfbox 2.0.8 二、实现代码import lombok.extern.slf4j.Slf4j;import org.apache...
阅读全文
摘要:一、BDB数据库环境,可以缓存StoredClassCatalog并共享--BdbEnvironmentimport java.io.File;import com.sleepycat.bind.serial.StoredClassCatalog;import com...
阅读全文
摘要:一、Berkeley DB简介 Berkeley DB是一个开放源代码的内嵌式数据库管理系统,能够为应用程序提供高性能的数据管理服务。应用它程序员只需要调用一些简单的API就可以完成对数据的访问和管理。与常用的数据库管理系统(如MySQL和Oracle等...
阅读全文
摘要:hive 这里简单说明一下,好对大家配置hive有点帮助。hive是建立在hadoop上的,当然,你如果只搭建hive也没用什么错。说简单一点,hadoop中的mapreduce调用如果面向DBA的时候,那么问题也就显现了,因为不是每个DBA都能明白mapreduc...
阅读全文

浙公网安备 33010602011771号