0

什么是全文检索

全文检索技术被广泛的应用于搜索引擎,查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。 对于数据量大、数据结构不固定的数据可采用全文检索方式搜索,比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。 什么是全文检索呢?先看一下百度百科的专业定义。 为了能更好的理解,我 ...

独孤风 发布于 2019-10-21 09:47 评论(0)阅读(42)
0

windows系统搭建zookeeper

安装&配置 在apache的官方网站提供了好多镜像下载地址,然后找到对应的版本 下载地址: http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz Windows下安装 把下载的zookeep ...

快乐地编程 发布于 2019-10-20 20:05 评论(0)阅读(19)
0

数据存储检索之B+树和LSM-Tree

作为一名应用系统开发人员,为什么要关注数据内部的存储和检索呢?首先,你不太可能从头开始实现一套自己的存储引擎,往往需要从众多现有的存储引擎中选择一个适合自己应用的存储引擎。因此,为了针对你特定的工作负载而对数据库调优时,最好对存储引擎的底层机制有一个大概的了解。 今天我们就先来了解下关系型数据库My ...

XIAO的博客 发布于 2019-10-19 16:33 评论(0)阅读(129)
0

NameNode && Secondary NameNode工作机制

NameNode && Secondary NameNode工作机制 1)工作流程 2) fsimage和edits NameNode是HDFS的大脑,它维护着整个文件系统的目录树,以及目录树里所有的文件和目录,这些信息以俩种文件存储在文件系统:一种是命名空间镜像(也称为文件系统镜像,File Sy ...

Striving_For_Dream 发布于 2019-10-18 18:56 评论(0)阅读(17)
0

kylin从入门到实战:实际案例

kylin从入门到实战:实际案例:https://www.cnblogs.com/bigdataer/p/6709783.html (不知道是不是这样理解:Measures添加中必须有COUNT,然后再添加其他的SUM,MIN等等这样不会报错) ...

脆皮软心 发布于 2019-10-17 19:30 评论(0)阅读(20)
1

9.InfluxDB-InfluxQL基础语法教程--LIMIT and SLIMIT 子句

本文翻译自官网,官网地址:(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) LIMIT和SLIMIT分别用于限制InfluxDB中每次查询时返回的points或series的数目。 一、LIMIT ...

suhaha 发布于 2019-10-17 15:35 评论(2)阅读(26)
1

6.InfluxDB-InfluxQL基础语法教程--GROUP BY子句

本文翻译自官网,官网地址:(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) GROUP BY子句通过用户自己制定的tags set或time区间,来将查询结果进行分组。 一、GROUP BY ta ...

suhaha 发布于 2019-10-17 15:22 评论(1)阅读(85)
0

2.InfluxDB-InfluxQL基础语法教程--目录

本文翻译自官网,官方文档地址:(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) InfluxQL是用于在InfluxDB中进行数据探索的类似于SQL的查询语法。下面将详细介绍在InfluxDB中使 ...

suhaha 发布于 2019-10-17 14:52 评论(0)阅读(18)
0

一文读懂大数据平台-写给大数据开发初学者的话 (转)

导读 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器 ...

IT-Evan 发布于 2019-10-17 00:58 评论(0)阅读(19)
0

一文读懂大数据计算框架与平台 (转)

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。随着互联网、物联网等技术得到越来越广泛的应用,数据规模不断增加,TB、PB量级成为常态,对数据的处理已无法由单台计算机完成,而只能由多台机器共同承担计算任务。而在分布式环境中进行大数 ...

IT-Evan 发布于 2019-10-16 20:25 评论(0)阅读(36)
0

Kylin构建Cube过程详解

1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的 ...

XIAO的博客 发布于 2019-10-16 13:36 评论(0)阅读(104)
0

Flink Time深度解析(转)

Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层都非常依赖于时间属性。时间属性是流处理中最重要的一个方面,是流处理系统的基石之一,贯穿这三层 API。在 ...

chaojianok 发布于 2019-10-16 12:42 评论(0)阅读(14)
0

Apache Kylin 概述

1 Kylin是什么 今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索、分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析。而现在,这一问题已经变 ...

XIAO的博客 发布于 2019-10-14 13:47 评论(0)阅读(283)
0

Hbase入门(五)——客户端(Java,Shell,Thrift,Rest,MR,WebUI)

Hbase的客户端有原生java客户端,Hbase Shell,Thrift,Rest,Mapreduce,WebUI等等。 下面是这几种客户端的常见用法。 一、原生Java客户端 原生java客户端是hbase最主要,最高效的客户端。 涵盖了增删改查等API,还实现了创建,删除,修改表等DDL操作 ...

独孤风 发布于 2019-10-14 10:44 评论(0)阅读(34)
0

从大数据工程师那里知道的大数据学习方法

首先要认识大数据 什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据。NO!这里的数据只能说比较大,但却不能称之为大数据。百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞 ...

白金大数据学习 发布于 2019-10-12 14:31 评论(0)阅读(58)
3

基于大数据聚类社群的作弊用户发现方法

前面的文章中我们讲道,像趣头条类的APP对于收徒和阅读行为给予用户现金奖励的方式势必会受到大量羊毛党黑产的注意,其实单个用户能薅到的钱是没有多少的,为了达到利益最大化,黑产肯定会利用各种手段构建大量账号来薅APP运营企业的羊毛,因为收徒的奖励远高于阅读,所以赚取收徒奖励就成了最严重的薅羊毛手段。前文 ...

XIAO的博客 发布于 2019-10-12 10:19 评论(0)阅读(260)
0

消息队列的作用以及kafka和activemq的对比

背景分析 消息队列这个类型的组件一直是非常重要的组件,当经过两家企业后我就很坚信这个结论了。队列这种东西,最广泛的作用还是在于解耦,宽泛一点的说,它可以将不同部门的工作内容进行有效的整合,基于一个约定好的格式,就可以两头互相不干扰的进行开发。可以说这个生产消费的思想不仅仅适用于程序也适用于非常多的地 ...

雨涵北北 发布于 2019-10-11 23:32 评论(0)阅读(43)
0

新手如何进入大数据领域,学习路线是什么

大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用。 有人通过下方的等式给出了大数据的定义。 大数据 = 编程技巧 + 数据结构和算法 + 分析能力 + 数据库技能 + 数学 + 机器学习 + NLP + OS + 密码学 + 并行编程 虽然这个等式看起来很长,需要学习的东西很多,但付 ...

白金大数据学习 发布于 2019-10-11 15:56 评论(0)阅读(64)
0

知识图谱在大数据中的应用

随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有 ...

XIAO的博客 发布于 2019-10-10 14:17 评论(0)阅读(328)
0

Zookeeper工作过程详解

一、Zookeeper工作机制 分布式和集中式系统相比,有很多优势,比如更强的计算能力,存储能力,避免单点故障等问题。但是由于在分布式部署的方式遇到网络故障等问题的时候怎么保证各个节点数据的一致性和可用性是比较关键的问题。 那么,对于分布式集群来说,我们需要一个能够在各个服务和节点之间进行协调和服务 ...

kocdaniel 发布于 2019-10-09 19:42 评论(1)阅读(287)