随笔档案「2018年11月」 - IT晓白

kafka使用说明书

摘要：首先要打开zookeeper，其次打开kafka，关闭时要先关闭kafka再关闭zookeeper 启动zookeeperzookeeper-server-start.sh config/zookeeper.properties 启动kafkakafka-server... 阅读全文

posted @ 2018-11-29 21:30 IT晓白阅读(476) 评论(0) 推荐(0)

关于hadoop各种项目中用到的maven依赖

摘要：-----------------scala-spark org.apache.spark spark-core_2.11 2.3.0 ... 阅读全文

posted @ 2018-11-28 21:18 IT晓白阅读(4512) 评论(0) 推荐(0)

阿里云服务器快速搭建自己的个人网站

摘要：https://yq.aliyun.com/articles/423918阿里云服务器快速搭建自己的个人网站 https://www.aliyun.com/jiaocheng/127216.html如何快速搭建个人网站（服务器配置篇） https://blog.csd... 阅读全文

posted @ 2018-11-25 22:19 IT晓白阅读(472) 评论(0) 推荐(0)

CentOS7命令大全

摘要：管理centos服务器的时候常会对文件进行一些常规操作，除了ftp之外了解在ssh下必要的文件操作命令那也是必不可少的，以下摘录一些常用的文件操作命令：查看ip：ip addr文件操作： ls ####查看目录中的文件#### ls -F ####查看目录中的文件##... 阅读全文

posted @ 2018-11-25 14:51 IT晓白阅读(388) 评论(0) 推荐(0)

solr中文分词

摘要：1.简介Solr是一个高性能，采用Java5开发，Solr基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。因为... 阅读全文

posted @ 2018-11-24 16:35 IT晓白阅读(270) 评论(0) 推荐(0)

windows安装MySQL详细图解过程

摘要：MySQL安装图解前言：下载地址链接：https://pan.baidu.com/s/1BMzQmMcZMCvixKBsnCkFrw 提取码：tec2 一、MYSQL的安装１、打开下载的mysql安装文件mysql-5.5.27-win32.zip，双击解压缩，运... 阅读全文

posted @ 2018-11-24 12:28 IT晓白阅读(1621) 评论(0) 推荐(0)

spark数据倾斜分析与解决方案

摘要：Spark数据倾斜(数据分布不均匀)数据倾斜发生时的现象：绝大多数task（任务）执行得都非常快，但个别task执行极慢。 OOM(内存溢出)，这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个... 阅读全文

posted @ 2018-11-23 21:03 IT晓白阅读(521) 评论(0) 推荐(0)

浅谈KMlib(机器学习)

摘要：PipeLine Pipeline:管道，在spark mllib中，作用主要是来定义计算的流程。模型的保存等。相当于提供了一个工具类，可以让我们更方便的使用spark mllib 推荐：在使用spa... 阅读全文

posted @ 2018-11-23 20:34 IT晓白阅读(379) 评论(0) 推荐(0)

Flume分析

摘要：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前... 阅读全文

posted @ 2018-11-23 19:33 IT晓白阅读(290) 评论(0) 推荐(0)

NotePad++快捷键总结

摘要：1. 文件相关快捷键动作定义 Ctrl-O 打开文件 Ctrl-N 新建文件 Ctrl-S 保存文件 Ctrl-Alt-S 文件另存为 Ctrl-Shift-S 保存所有打开文件 Ctrl-P 打印 Alt-F4 退出... 阅读全文

posted @ 2018-11-22 15:53 IT晓白阅读(280) 评论(0) 推荐(0)

SparkStreamingStateful

摘要：/* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 ... 阅读全文

posted @ 2018-11-22 09:54 IT晓白阅读(160) 评论(0) 推荐(0)

kafka

摘要：ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢？流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实... 阅读全文

posted @ 2018-11-21 22:16 IT晓白阅读(192) 评论(0) 推荐(0)

Scala

摘要：Scala面向对象、函数式编程、更高层的并发模型—里面包含编译器、类库它不存在成员变量，通过object（单例）取代函数处理：可以吧函数化成一个参数传过去Object：入口类关键字-项目入口类似于Java中的main方法Def:函数声明—定义一个方法/函数Val:常... 阅读全文

posted @ 2018-11-20 22:44 IT晓白阅读(203) 评论(0) 推荐(0)

kafka幂等producer

摘要：众所周知，Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics，下称EOS)。Kafka的EOS主要体现在3个方面：幂等producer：保证发送单个分区的消息只会发送一次，不会出现重复消息事务(t... 阅读全文

posted @ 2018-11-20 21:10 IT晓白阅读(483) 评论(0) 推荐(0)

RDD（弹性分布式数据集）的分析

摘要：RDD：Resilient Distributed Dataset(弹性分布式数据集)弹性：数据集的可恢复型原因：在分布式环境下，运算节点很容易出问题，会造成数据的丢失，rdd可以在数据丢失的背景下恢复数据。数据恢复的技术：1.基本备份2.基于日志（hadoop na... 阅读全文

posted @ 2018-11-14 17:41 IT晓白阅读(390) 评论(0) 推荐(0)

Spark 开发环境搭建

摘要：1.创建maven工程创建project--Java创建module--maven2.添加依赖 org.apache.spark spark-core_2.11 2.3.0 ... 阅读全文

posted @ 2018-11-14 17:39 IT晓白阅读(157) 评论(0) 推荐(0)

本地yum仓库的配置安装

摘要：两种方式： a.每一台机器都配一个本地文件系统上的yum仓库 file：////package/path/ (不推荐因为需要在每台机器上配置) b.在局域网内配置一台节点（server-base）的本地文件系统yum仓库，然后将其发布到web服务器中，其他节... 阅读全文

posted @ 2018-11-10 15:14 IT晓白阅读(435) 评论(0) 推荐(0)

Java使用PDFBox操作PDF文件获取页码、文章内容、缩略图

摘要：一、依赖 com.sleepycat je 5.0.73 org.apache.pdfbox pdfbox 2.0.8 二、实现代码import lombok.extern.slf4j.Slf4j;import org.apache... 阅读全文

posted @ 2018-11-06 22:13 IT晓白阅读(6999) 评论(0) 推荐(0)

利用bdb实现持久化队列

摘要：一、BDB数据库环境,可以缓存StoredClassCatalog并共享--BdbEnvironmentimport java.io.File;import com.sleepycat.bind.serial.StoredClassCatalog;import com... 阅读全文

posted @ 2018-11-06 22:00 IT晓白阅读(478) 评论(0) 推荐(0)

嵌入式数据库BDB的介绍与使用案例

摘要：一、Berkeley DB简介 Berkeley DB是一个开放源代码的内嵌式数据库管理系统，能够为应用程序提供高性能的数据管理服务。应用它程序员只需要调用一些简单的API就可以完成对数据的访问和管理。与常用的数据库管理系统（如MySQL和Oracle等... 阅读全文

posted @ 2018-11-06 21:41 IT晓白阅读(1376) 评论(0) 推荐(0)

CentOS6安装hive-2.1.1

摘要：hive 这里简单说明一下，好对大家配置hive有点帮助。hive是建立在hadoop上的，当然，你如果只搭建hive也没用什么错。说简单一点，hadoop中的mapreduce调用如果面向DBA的时候，那么问题也就显现了，因为不是每个DBA都能明白mapreduc... 阅读全文

posted @ 2018-11-02 20:37 IT晓白阅读(347) 评论(0) 推荐(0)

一个双鱼座的列表儿

怪癖的鱼儿

11 2018 档案

公告