随笔分类 -  大数据

摘要:在前面的 "Spark发展历程和基本概念" 中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的。我们可以了解到每个参数配置的作用是什么。这里将详细介绍Spark集群搭建以及xml参数配置。Spark的集群搭建分为分布式与伪分布式,分布式主要是与hadoop Yarn集群配 阅读全文
posted @ 2017-07-26 08:55 NextNight 阅读(2373) 评论(0) 推荐(0)
摘要:Hadoop十年 找了一张Hadoop十年的生态发展图: Spark概况: Apache Spark 是一个 "开源" 簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于 "Hadoop" 的 "MapReduce" 会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技 阅读全文
posted @ 2017-07-25 22:05 NextNight 阅读(1136) 评论(0) 推荐(0)
摘要:fscrawler是ES的一个文件导入插件,只需要简单的配置就可以实现将本地文件系统的文件导入到ES中进行检索,同时支持丰富的文件格式(txt.pdf,html,word...)等等。下面详细介绍下fscrawler是如何工作和配置的。 一、fscrawler的简单使用: 1、下载: wget ht 阅读全文
posted @ 2017-05-25 16:57 NextNight 阅读(6379) 评论(0) 推荐(1)
摘要:前面介绍了ES,Kibana5.3.1的安装配置,以及IK分词的安装和同义词设置,这里主要记录Logstash导入mysql数据到Elasticsearch5.3.1并设置IK分词和同义词。由于logstash配置好JDBC,ES连接之后运行脚本一站式创建index,mapping,导入数据。但是如果我们要配置IK分词器就需要修改创建index,mapping的配置,下面详细介绍logstash的Template模板配置。 阅读全文
posted @ 2017-05-23 18:06 NextNight 阅读(4992) 评论(7) 推荐(0)
摘要:本文主要是记录Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,本来是要写fscrawler的多种格式(html,pdf,word...)数据导入的,但是IK分词和同义词配置还是折腾了两天,没有很详细的内容,这里决定还是记录下来。IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。所以IK跟ES本来是天生一对,当然是对于 阅读全文
posted @ 2017-05-15 23:55 NextNight 阅读(9005) 评论(11) 推荐(6)
摘要:前言:上篇[大数据]-Elasticsearch5.3.1+Kibana5.3.1从单机到分布式的安装与使用<1>中介绍了ES ,Kibana的单机到分布式的安装,这里主要是介绍Elasticsearch5.3.1的一些概念。官方示例的基本数据导入,数据查询以及ES,kibana的功能组件的认识和熟 阅读全文
posted @ 2017-05-09 18:07 NextNight 阅读(1637) 评论(0) 推荐(2)
摘要:一、Elasticsearch,Kibana简介: Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域, Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 Elasticsearch也使用Java开发并使用Lucen 阅读全文
posted @ 2017-05-09 11:16 NextNight 阅读(3756) 评论(0) 推荐(2)
摘要:一、前期准备工作: 1.安装包的准备: VMware(10.0版本以上) : 官方网站:https://www.vmware.com/cn.html 官方下载地址:http://www.vmware.com/products/player/playerpro-evaluation.html 10.0 阅读全文
posted @ 2017-04-24 20:29 NextNight 阅读(10912) 评论(0) 推荐(3)
摘要:最近在做kylin+mondrian+saiku的二次开发的时候,Bulid saiku的源码出现了很多问题,基本上一大部分问题jar找不到问题,很多jar国内网站都找不到。这时候只有手动下载然后注册到MAVEN本地仓库中去。 我把这些包放上来希望对给需要的朋友一些帮助。 如果提示包找不到: 1.首 阅读全文
posted @ 2017-01-20 10:53 NextNight 阅读(2027) 评论(25) 推荐(2)
摘要:以前谈及大数据,总会第一想到的是Hadoop,分布式,然后没了。而真正接触大数据的时候,发现这是一个很大的体系,大数据只是个概念,而真正的核心在于数据的操作上,从数据的收集,处理,存储,计算上来发现数据中潜藏的价值。 大数据,机器学习,深度学习,人工智能,这几个比较火热的话题,其实中间存在着千丝万缕 阅读全文
posted @ 2016-11-05 12:14 NextNight 阅读(445) 评论(0) 推荐(0)