2022年4月15日

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&实时数仓.V24|——|项目.v24|需求二:数据处理&增量统计.V2|——|编程实现|

摘要: 一、编程实现:工具类:每隔5分钟统计最近1小时内的订单交易情况显示城市/省份/交易总金额/订单总数 ### 编程实现:工具类一:ConnHBase package myutils import org.apache.hadoop.conf.Configuration import org.apach 阅读全文

posted @ 2022-04-15 15:04 yanqi_vip 阅读(57) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&实时数仓.V25|——|项目.v25|需求二:数据处理&增量统计.V3|——|编程实现/redis下沉器|

摘要: 一、编程实现:redis下沉器:MySinkToRedis ### 编程实现:redis下沉器:MySinkToRedis package ads import java.util import modes.CityOrder import org.apache.flink.configuratio 阅读全文

posted @ 2022-04-15 15:04 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&实时数仓.V23|——|项目.v23|需求二:数据处理&增量统计.V1|——|需求分析|

摘要: 一、需求2:每隔5分钟统计最近1小时内的订单交易情况,显示城市/省份/交易总金额/订单总数 增量统计 二、编程实现流程 ### 读取数据源(input) ~~~ # input读取数据源: input1:mysql:yanqi_area HBase:dim_yanqi_area(地域宽表) # 从h 阅读全文

posted @ 2022-04-15 15:03 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&实时数仓.V21|——|项目.v21|需求一:数据处理&全量查询.V5|——|DWS:hbash:yanqi_trade_orders+dim_yanqi_area生成flink:table中临时表|

摘要: 一、编程实现第四层:DWS层数据处理:统计城市、省份订单总额 ### 编程实现第四层:DWS层数据处理:统计城市、省份订单总额 ~~~ dws : 统计城市、省份的订单总额, ~~~ 订单总额和订单总数:orderNo、userId、status、totalMoney、areaId ~~~ ODS— 阅读全文

posted @ 2022-04-15 15:02 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&实时数仓.V22|——|项目.v22|需求一:数据处理&全量查询.V6|——|DWS:hbash:yanqi_trade_orders+dim_yanqi_area生成flink:table中临时表|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 15:02 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&实时数仓.V20|——|项目.v20|需求一:数据处理&全量查询.V4|——|DIM:hbash:yanqi_area~~hbash:dim_yanqi_area|

摘要: 一、编程实现第三层:DIM层数据处理 ### 编程实现第三层:DIM层数据处理 ~~~ DIM:同第四部分 dim_yanqi_area表数据 ~~~ hbash:yanqi_area——>hbash:dim_yanqi_area ~~~ 生成hbash:yanqi_area表到hbash:dim_ 阅读全文

posted @ 2022-04-15 15:01 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&实时数仓.V19|——|项目.v19|需求一:数据处理&全量查询.V3|——|ODS:mysql:yanqi_area~~hbash:yanqi_area|

摘要: 一、编程实现第二层:ODS层数据处理 ### 编程实现第二层:ODS层数据处理 ~~~ ODS:同第四部分 yanqi_area ~~~ ODS:mysql--(binlog) canal kafka——>yanqi_area ~~~ 下沉mysql:yanqi_area表到hbash:yanqi_ 阅读全文

posted @ 2022-04-15 15:00 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&实时数仓.V17|——|项目.v17|需求一:数据处理&全量查询.V1|——|需求分析|

摘要: 一、需求1 :查询城市、省份、订单总额、订单总数 全量查询 ### ODS层数层数据处理:yanqi_trade_orders ~~~ ods层数据处理:同第三部分 ~~~ ods:mysql--(binlog) canal kafka——>yanqi_trade_orders ~~~ ods:my 阅读全文

posted @ 2022-04-15 14:59 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&实时数仓.V18|——|项目.v18|需求一:数据处理&全量查询.V2|——|ODS:mysql:yanqi_trade_orders~~hbash:yanqi_trade_orders|

摘要: 一、编程实现第一层:ODS层数据处理:查询城市、省份、订单总额、订单总数 全量查询 ### 编程实现第一层:ODS层数据处理:查询城市、省份、订单总额、订单总数 全量查询 ~~~ ods层数据处理 ~~~ ods:同第三部分:mysql--(binlog) canal kafka——>yanqi_t 阅读全文

posted @ 2022-04-15 14:59 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&实时数仓.V15|——|项目.v15|DWS层处理|数据仓库层数据处理|

摘要: 一、DWS ### 具体代码参见配套工程代码 ~~~ 数据仓库层次的划分不是固定不变的, ~~~ 可以根据实际需求进行适当裁剪或者是添加。 ~~~ 如果业务相对简单和独立,可以将DWD、DWS进行合并。 ~~~ # 注意:在实时数仓中,DWS层数据根据自己的需求定义,后期教程会定义 Walter S 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&实时数仓.V16|——|项目.v16|ADS层处理|读取数据明细分析结果下沉到Redis|

摘要: 一、ADS层处理 ### ADS层梳理 ~~~ ADS(Application Data Store 应用数据层)。 ~~~ 基于DW数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。 ### 从数据明细层读分析结果数据到clickhouse、redis、druid等 二、编程实现 ### 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&实时数仓.V14|——|项目.v14|DWD层处理|数据仓库层数据处理.V4|

摘要: 一、编程实现DWD(AreaDetailInfo代码同样可以归属在DIM层中):参考代码 ### 编程实现dwd层数据:AreaDetailInfo package dim import org.apache.flink.streaming.api.{CheckpointingMode, TimeC 阅读全文

posted @ 2022-04-15 14:58 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&实时数仓.V12|——|项目.v12|DWD层处理|数据仓库层数据处理.V2|

摘要: 一、编程实现 ### 编程实现DWD层数据处理:WindowJoin package dw.dwd import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.scala 阅读全文

posted @ 2022-04-15 14:57 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&实时数仓.V13|——|项目.v13|DWD层处理|数据仓库层数据处理.V3|

摘要: 一、编程实现 ### 编程实现DWD层数据处理:CoProcessFunc package dw.dwd import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor} import org.apache.fli 阅读全文

posted @ 2022-04-15 14:57 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&实时数仓.V11|——|项目.v11|DWD层处理|数据仓库层数据处理.V1|

摘要: 一、DW层处理 ### DW层处理 ~~~ DW(Data Warehouse 数据仓库层)。 ~~~ 包含DWD、DWS、DIM层,由ODS层数据加工而成。主要完成数据加工与整合, ~~~ 建立一致性的维度, ~~~ 构建可复用的面向分析和统计的明细事实表, ~~~ 以及汇总公共粒度的指标。 ~~ 阅读全文

posted @ 2022-04-15 14:56 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&实时数仓.V09|——|项目.v09|DIM层处理|从HBash中读取地域维表数据.V2|

摘要: 一、编程实现程序,从ods层下沉数据到dim层 ### HBaseReader:从Hbase中获取数据的类:HBaseReader:从hbash:yanqi_area中读取数据 package dim import java.util import myutils.ConnHBase import 阅读全文

posted @ 2022-04-15 14:55 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&实时数仓.V10|——|项目.v10|DIM层处理|从HBash中读取地域维表数据.V3|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:55 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&实时数仓.V07|——|项目.v07|ODS层处理|将kafka中的维表写入DIM层.V4|

摘要: 一、将mysql中yanqi_area表下沉到hbas中 ### 在hbash中创建表:yanqi_area ~~~ # 在hbash中创建yanqi_area"表 [root@hadoop02 ~]# /opt/yanqi/servers/hbase-1.3.1/bin/hbase shell h 阅读全文

posted @ 2022-04-15 14:54 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&实时数仓.V08|——|项目.v08|DIM层处理|从HBash中读取地域维表数据.V1|

摘要: 一、DIM层处理 ### DIM层处理 ~~~ 最原始的表 mysql中 yanqi_area > (hbase) ~~~ 转化yanqi_area > 地区id,地区的名字,城市的id,城市的名字, 省份的id,省份的名字 ~~~ # --> 存入 hbase中 ~~~ mysql hbase 管 阅读全文

posted @ 2022-04-15 14:54 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&实时数仓.V06|——|项目.v06|ODS层处理|将kafka中的维表写入DIM层.V3|

摘要: 一、将mysql中yanqi_trade_orders表下沉到hbas中 ### 在hbash中创建表:yanqi_trade_orders ~~~ # 在hbash中创建yanqi_trade_orders"表 [root@hadoop02 ~]# /opt/yanqi/servers/hbase 阅读全文

posted @ 2022-04-15 14:53 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&实时数仓.V05|——|项目.v05|ODS层处理|将kafka中的维表写入DIM层.V2|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:53 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&实时数仓.V03|——|项目.v03|EbProject|编程工程工具类.V3|

摘要: 一、编程实现工具类: ### 编程实现工具类一:ConnHBase package myutils import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase.{HBaseConfiguration, HCon 阅读全文

posted @ 2022-04-15 14:52 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&实时数仓.V04|——|项目.v04|ODS层处理|将kafka中的维表写入DIM层.V1|

摘要: 一、编程实现程序:将Kafka中的维度表写入DIM层 ### 编程实现:KafkaToHBase:将Kafka作为Source,Flink作为消费者从Kafka中获取数据 package ods import java.util import com.alibaba.fastjson.JSON im 阅读全文

posted @ 2022-04-15 14:52 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&实时数仓.V01|——|项目.v01|EbProject|创建maven工程EbProject.V1|

摘要: 一、创建一个maven工程:创建一个maven工程:EbProject ### 在pom.xml下导入依赖环境 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</ 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&实时数仓.V02|——|项目.v02|EbProject|编程工程样例类.V2|

摘要: 一、编程实现:样例类 ### 编程实现样例类一:AdClick package modes case class AdClick(area: String, uid:String ,productId: String,timestamp:Long) ### 编程实现样例类二:AreaInfo pac 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:51 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&实时数仓.V18|——|项目.v18|DIM层处理|从HBash中读取地域维表数据.V2|

摘要: 一、编程实现程序,从ods层下沉数据到dim层 ### HBaseReader:从Hbase中获取数据的类:HBaseReader: package dim import java.util //import myutils.ConnHBase import org.apache.flink.con 阅读全文

posted @ 2022-04-15 14:50 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&实时数仓.V19|——|项目.v19|DIM层处理|从HBash中读取地域维表数据.V3|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:50 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&实时数仓.V17|——|项目.v17|DIM层处理|从HBash中读取地域维表数据.V1|

摘要: 一、DIM层处理 ### DIM层处理 ~~~ 最原始的表 mysql中 yanqi_area > (hbase) ~~~ 转化yanqi_area > 地区id,地区的名字,城市的id,城市的名字, 省份的id,省份的名字 ~~~ # --> 存入 hbase中 ~~~ mysql hbase 管 阅读全文

posted @ 2022-04-15 14:49 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&实时数仓.V16|——|项目.v16|ODS层处理|将kafka中的维表写入DIM层.V4|

摘要: 一、启动相关服务 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务:所有节点 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/ya 阅读全文

posted @ 2022-04-15 14:48 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&实时数仓.V15|——|项目.v15|ODS层处理|将kafka中的维表写入DIM层.V3|

摘要: 一、编程实现程序:将Kafka中的维度表写入DIM层 ### 编程实现:KafkaToHBase:将Kafka作为Source,Flink作为消费者从Kafka中获取数据 package ods import java.util import com.alibaba.fastjson.{JSON, 阅读全文

posted @ 2022-04-15 14:48 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&实时数仓.V13|——|项目.v13|ODS层处理|将kafka中的维表写入DIM层.V1|

摘要: 一、创建一个maven工程:创建一个maven工程:EbProject ### 在pom.xml下导入依赖环境 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</ 阅读全文

posted @ 2022-04-15 14:47 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&实时数仓.V14|——|项目.v14|ODS层处理|将kafka中的维表写入DIM层.V2|

摘要: 一、编程实现:样例类:将Kafka中的维度表写入DIM层 ### 编程实现样例类一:TableObject package ods /** * 存放mysql log_bin日志信息的样例类 * log_bin日志经过canel转成json发给kafka * flink应用读kafka中json数据 阅读全文

posted @ 2022-04-15 14:47 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&实时数仓.V11|——|项目.v11|ODS层处理|Kappa架构|

摘要: 一、Kappa架构 ### Kappa架构 ~~~ 正如前面提到的,Lambda Architecture有其优点和缺点,人们也划分成支持者和反对者两派。 ~~~ Kappa 架构是LinkedIn的Jay Kreps结合实际经验和个人体会, ~~~ 针对Lambda架构进行深度剖析,分析其优缺点并 阅读全文

posted @ 2022-04-15 14:46 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&实时数仓.V12|——|项目.v12|ODS层处理|JSON日志数据格式|

摘要: 一、json日志数据格式 ### 样例sql ~~~ # 在mysql中插入数 mysql> INSERT INTO `yanqi_trade_orders` VALUES ('2', '23a0b124546', '121', '2', '0.12', '6331.00', '2', '0', ' 阅读全文

posted @ 2022-04-15 14:46 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00008|——————————|^^ 部署 ^^|——|Hadoop&实时数仓.V08|——|项目.v08|Canal同步业务数据|Canal部署|

摘要: 一、Canal 安装说明 ### Canal 安装说明 ~~~ 单机模式,也可以将Canal搭建集群模式。 ~~~ 如果要搭建集群模式,可将Canal目录分发给其他虚拟机,然后在各节点中分别启动Canal。 ~~~ 这种Zookeeper为观察者监控的模式, ~~~ 只能实现高可用,而不是负载均衡, 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00009|——————————|^^ 配置 ^^|——|Hadoop&实时数仓.V09|——|项目.v09|Canal同步业务数据|kafka客户端测试|

摘要: 一、Kafka客户端测试 ### 启动相关服务 ~~~ # 启动zookeeper服务 [root@hadoop01 ~]# ./zk.sh start ~~~ # 启动kafka服务 [root@hadoop01 ~]# kafka-server-start.sh -daemon /opt/yan 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&实时数仓.V10|——|项目.v10|ODS层处理|Lambda架构|

摘要: 一、大数据数据仓库的架构: ### 架构体系 ~~~ # 离线大数据架构: ~~~ HDFS存储,hive、mr、spark进行离线计算的传统大数据架构; ~~~ # Lambda架构: ~~~ 在离线大数据架构的基础上增加新链路用于实时数据处理,需要维护离线处理和实时处理两套代码; ~~~ # K 阅读全文

posted @ 2022-04-15 14:45 yanqi_vip 阅读(58) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&实时数仓.V06|——|项目.v06|Canal同步业务数据|环境准备|初始Canal|

摘要: 一、Canal同步业务数据 ### 环境准备 ~~~ Hadoop、HBASE、Flink、ClickHouse、MySQL、Canal、Kafka ### 初始Canal:什么是 Canal ~~~ 阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外, ~~~ 所以衍生出了 阅读全文

posted @ 2022-04-15 14:44 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00007|——————————|^^ 配置 ^^|——|Hadoop&实时数仓.V07|——|项目.v07|Canal同步业务数据|配置MySQL的binlog|

摘要: 一、配置MySQL的binlog ### 常见的binlog命令 ~~~ # 是否启用binlog日志 mysql> show variables like 'log_bin'; + + + | Variable_name | Value | + + + | log_bin | ON | + + + 阅读全文

posted @ 2022-04-15 14:44 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&实时数仓.V04|——|项目.v04|背景需求|技术选型|

摘要: 一、技术选型 ### 技术选型方案 ~~~ # 框架选型 Apache / 第三方发行版(CDH / HDP / Fusion Insight) Apache社区版本优点: ~~~ 完全开源免费 ~~~ 社区活跃 ~~~ 文档、资料详实 ~~~ # 缺点: ~~~ 复杂的版本管理 ~~~ 复杂的集群 阅读全文

posted @ 2022-04-15 14:43 yanqi_vip 阅读(21) 评论(0) 推荐(0)

|NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&实时数仓.V05|——|项目.v05|背景需求|业务数据库表结构|

摘要: 一、业务数据库表结构 ### 业务数据库:数据源 ~~~ 交易订单表(yanqi_trade_orders) ~~~ 订单产品表(yanqi_order_product) ~~~ 产品信息表(yanqi_product_info) ~~~ 产品分类表(yanqi_product_category) 阅读全文

posted @ 2022-04-15 14:43 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——|Hadoop&实时数仓.V03|——|项目.v03|背景需求|需求分析|

摘要: 一、需求分析 ### 需求分析 ~~~ 日志数据:启动日志、点击日志(广告点击日志) ~~~ 业务数据:用户下单、提交订单、支付、退款等核心交易数据的分析 ~~~ 广告流量实时统计: 生成动态黑名单 ~~~ 恶意刷单:一旦发现恶意刷单时进行实时告警 ~~~ 基于动态黑名单进行点击行为过滤 计算每隔5 阅读全文

posted @ 2022-04-15 14:42 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&实时数仓.V01|——|项目.v01|背景需求|项目背景|

摘要: 一、项目背景与需求 ### 项目背景 ~~~ 随着互联网的发展,数据的时效性对企业的精细化运营越来越重要, 商场如战场, ~~~ 在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, ~~~ 对企业的决策运营策略调整有很大帮助。 ~~~ 此外,随着 5G 技术的成熟、广泛应用, 对于互联网、 阅读全文

posted @ 2022-04-15 14:41 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&实时数仓.V02|——|项目.v02|背景需求|实时数仓转型故事|

摘要: 一、实时数仓转型故事:离线数仓: 二、离线数仓分层架构图: 三、实时计算架构: 四、数据计算架构说明 ~~~ # 收集层: ~~~ Binlog(业务日志)、loT(物联网)、后端服务日志(系统日志) ~~~ 经过日志收集团队和 DB 收集团队的处理,数据将会被收集到 Kafka 中。 ~~~ 这些 阅读全文

posted @ 2022-04-15 14:41 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:40 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:40 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V02|——|ELK.v02|Logstash|ES集群规划调优.V2|ES集群调优|

摘要: 一、ES集群调优策略 ### ES集群调优策略 ~~~ JavaBBSELK日志平台中Elasticsearch实例节点数不到10个, ~~~ 考虑到资金投入、当前及未来一定时间内数据的增量情况等, ~~~ 研发和运维团队在竭尽所能的通过调优方式保证Elasticsearch正常高效运转。 ~~~ 阅读全文

posted @ 2022-04-15 14:39 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00066|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:39 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00064|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V01|——|ELK.v01|Logstash|ES集群规划调优.V1|ES集群规划|

摘要: 一、ES集群规划与调优 ### ES集群规划:我们需要多大规模的集群 ~~~ # 需要从以下两个方面考虑: ~~~ 当前的数据量有多大?数据增长情况如何? ~~~ 你的机器配置如何?cpu、多大内存、多大硬盘容量? ~~~ # 推算的依据: ~~~ Elasticsearch JVM heap 最大 阅读全文

posted @ 2022-04-15 14:38 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:38 yanqi_vip 阅读(13) 评论(0) 推荐(0)

|NO.Z.00062|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V09|——|ELK.v09|Logstash|日志分析实战.V9|kibana.Dashboard|

摘要: 一、可视化数据定义Dashboard ### 可视化数据定义Dashboard ~~~ ——>kibana-web-UI——>Dashboard——>Create new dashboard——> ~~~ ——>Add——>Add panels:IP地址分布/TOPN/PV/UV——> ~~~ —— 阅读全文

posted @ 2022-04-15 14:37 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V06|——|ELK.v06|Logstash|日志分析实战.V6|kibana.UV|

摘要: 一、可视化数据定义配置UV ### 可视化数据定义配置UV ~~~ ——>visualize——>Create new visualization——>New visualization——>Line——> ~~~ ——>New line/Choose a source:logstash-nginx 阅读全文

posted @ 2022-04-15 14:36 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V07|——|ELK.v07|Logstash|日志分析实战.V7|kibana.IP坐标|

摘要: 一、可视化数据定义配置IP地理位置分布 ### 可视化数据定义配置IP地理位置分布 ~~~ ——>Visualize——>Create new visualization——> ~~~ ——>New Visualization:Coordinate Map——> ~~~ ——>New Coordin 阅读全文

posted @ 2022-04-15 14:36 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V08|——|ELK.v08|Logstash|日志分析实战.V8|kibana.TOPN|

摘要: 一、可视化数据定义配置TOPN ### 可视化数据定义配置TOPN ~~~ ——>Visualize——>Create new visualization——> ~~~ ——>New Visualization:Data Table——> ~~~ ——>New Data Table/Choose a 阅读全文

posted @ 2022-04-15 14:36 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V05|——|ELK.v05|Logstash|日志分析实战.V5|kibana.PV|

摘要: 一、可视化数据定义配置PV ### 可视化数据定义配置PV ~~~ ——>kibana-web-UI——>Visualize——>Create new visualization——> ~~~ ——>Line——>New line/Choose a source——>Logstash-nginx-a 阅读全文

posted @ 2022-04-15 14:35 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00056|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V03|——|ELK.v03|Logstash|日志分析实战.V3|Logstash读取Kafka|

摘要: 一、Logstash读取Kafka ### Logstash配置文件 ~~~ 官网地址:https://www.elastic.co/guide/en/logstash/7.3/plugins-inputs-kafka.html ### 上传IP地址库 ~~~ # 上传IP地址库到Datas目录下 阅读全文

posted @ 2022-04-15 14:34 yanqi_vip 阅读(51) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V04|——|ELK.v04|Logstash|日志分析实战.V4|kibana可视化|

摘要: 一、kibana对es里面的数据进行可视化的分析 ### 启动kibana服务服务 ~~~ # 启动kibana服务 [root@hadoop02 ~]# nohup /opt/yanqi/servers/es/kibana/bin/kibana >/dev/null 2>&1 & 二、kibana 阅读全文

posted @ 2022-04-15 14:34 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00054|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V01|——|ELK.v01|Logstash|日志分析实战.V1|Nginx部署|

摘要: 一、日志分析平台实战 二、Nginx部署 ### 安装git工具,安装wget下载工具 ~~~ # 安装相关工具包:Hadoop02 [root@hadoop02 ~]# yum install wget git -y [root@hadoop02 ~]# yum install gcc-c++ - 阅读全文

posted @ 2022-04-15 14:33 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00055|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V02|——|ELK.v02|Logstash|日志分析实战.V2|Filebeat部署|

摘要: 一、Filebeat ### Filebeat ~~~ Filebeat主要是为了解决Logstash工具比较消耗资源比较重的问题, ~~~ 因为Logstash是Java语言编写, ~~~ 所以官方推出了一些轻量级的采集工具,推出了Beats系列,其中使用比较广泛的是Filebeat。 ~~~ 官 阅读全文

posted @ 2022-04-15 14:33 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00052|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V04|——|ELK.v04|Logstash部署.V4|

摘要: 一、Output插件:标准输出到控制台 ### 标准输出到控制台 ~~~ # 将收集的数据直接打印到控制台 [root@hadoop02 ~]# /opt/yanqi/servers/es/Logstash/bin/logstash \ -e 'input{stdin{}}output{stdout 阅读全文

posted @ 2022-04-15 14:32 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:32 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00051|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V03|——|ELK.v03Logstash部署.V3|

摘要: 一、filter插件 ### Filter插件 ~~~ Logstash之所以强悍的主要原因是filter插件; ~~~ 通过过滤器的各种组合可以得到我们想要的结构化数据。 ~~~ 官网地址:https://www.elastic.co/guide/en/Logstash/current/plugi 阅读全文

posted @ 2022-04-15 14:31 yanqi_vip 阅读(59) 评论(0) 推荐(0)

|NO.Z.00050|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V02|——|ELK.v02|Logstash部署.V2|

摘要: 一、Input插件部署 ## Input插件部署 ~~~ stdin标准输入和stdout标准输出 ## 使用标准的输入与输出组件 ~~~ # 使用标准的输入与输出组件,实现将我们的数据从控制台输入,从控制台输出 [root@hadoop02 ~]# /opt/yanqi/servers/es/Lo 阅读全文

posted @ 2022-04-15 14:31 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00049|——————————|^^ 部署 ^^|——|Hadoop&ElasticSearch.V01|——|ELK.v01|Logstash部署.V1|

摘要: 一、Logstash ### Logstash介绍及安装 ~~~ 官网:https://www.elastic.co/guide/index.html ~~~ Logstash:https://www.elastic.co/guide/en/logstash/current/index.html # 阅读全文

posted @ 2022-04-15 14:30 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V47|——|ELK.v47|原理剖析|Doc Values机制|

摘要: 一、DocValues机制 ### 为什么要有 Doc Values ~~~ ElasticSearch 之所以搜索这么快速,归功于它的 倒排索引的设计,然而它也不是万能的, ~~~ 倒排索引的检索性能是非常快的,但是在字段值排序时却不是理想的结构。 ~~~ 下面是一个简单的 倒排索引的结构 ### 阅读全文

posted @ 2022-04-15 14:29 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-15 14:29 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V44|——|ELK.v44|原理剖析|数据结构.V2|

摘要: 一、调表实现:编程实现 ### 调表实现:编程实现 package com.yanqi.es; import java.util.Comparator; //存储kv类型数据 public class SkipList<K, V> { //头节点 private Node<K, V> first; 阅读全文

posted @ 2022-04-15 14:28 yanqi_vip 阅读(28) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V45|——|ELK.v45|原理剖析|并发冲突处理机制剖析|

摘要: 一、并发冲突处理机制剖析 ### 详解并发冲突 ~~~ # 在电商场景下,工作流程为: ~~~ 读取商品信息,包括库存数量 ~~~ 用户下单购买 ~~~ 更新商品信息,将库存数减一 ~~~ 如果是多线程操作,就可能有多个线程并发的去执行上述的3步骤流程, ~~~ 假如此时有两个人都来读取商品数据,两 阅读全文

posted @ 2022-04-15 14:28 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V46|——|ELK.v46|原理剖析|分布式数据一致性|

摘要: 一、分布式数据一致性 ### 分布式数据一致性 ~~~ 在分布式环境下,一致性指的是多个数据副本是否能保持一致的特性。 ~~~ 在一致性的条件下,系统在执行数据更新操作之后能够从一致性状态转移到另一个一致性状态。 ~~~ 对系统的一个数据更新成功之后,如果所有用户都能够读取到最新的值, ~~~ 该系 阅读全文

posted @ 2022-04-15 14:28 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V43|——|ELK.v43|原理剖析|数据结构.V1|

摘要: 一、SkipList应用 ### 概述 ~~~ 假设某个索引字段中有sex,address字段,检索条件为:sex='female' and address='北京', ~~~ 给定查询过滤条件 sex='female'的过程就是先从 term index ~~~ 找到 femal 在 term d 阅读全文

posted @ 2022-04-15 14:27 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V42|——|ELK.v42|原理剖析|数据结构.V2|

摘要: 一、Trie(扩展) ### Trie 被称作做字典树、前缀树(Prefix Tree)、单词查找树 ~~~ Trie 搜索字符串的效率主要跟字符串的长度有关(O(len(单词))) ~~~ 使用 Trie 存储 cat->1、dog->2、doggy->3、does->4、cast->5、add- 阅读全文

posted @ 2022-04-15 14:26 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V40|——|ELK.v40|原理剖析|存储文件|

摘要: 一、存储文件详解 ### 存储文件详解说明 ~~~ 通过ES-HEAD插件可以查看到一个索引的分片信息,图中一个绿色方块就代表一个分片Shard; ~~~ ES使用Lucene来处理shard级别的索引和查询, ~~~ 因此数据目录中的文件由Elasticsearch和Lucene共同编写。 ~~~ 阅读全文

posted @ 2022-04-15 14:25 yanqi_vip 阅读(75) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V41|——|ELK.v41|原理剖析|数据结构.V1|

摘要: 一、Elasticsearch中的数据结构 ### 倒排索引详解:概述 ~~~ 倒排索引是全文检索的根基,理解了倒排索引之后才能算是入门了全文检索领域。 ~~~ 倒排索引的的概念很简单,也很好理解。Elasticsearch/Lucene是如何实现这个结构的呢? Term Doc_1 Doc_2 Q 阅读全文

posted @ 2022-04-15 14:25 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V39|——|ELK.v39|原理剖析|索引|

摘要: 一、Elasticsearch之原理剖析 ### 倒排索引 ~~~ Elasticsearch 使用一种称为倒排索引的结构,它适用于快速的全文搜索。 ~~~ 一个倒排索引由文档中所有不重复词的列表构成,对于其中每个词,有一个包含它的文档列表。 ### 例如,假设我们有两个文档,每个文档是如下内容: 阅读全文

posted @ 2022-04-15 14:24 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V38|——|ELK.v38|集群|Java API定版ES.V6|

摘要: 一、环境准备 ### 查询操作:准备数据 ~~~ # 添加数据一: POST /es_test/_doc/1 { "name": "hadoop添加文档", "description": "hadoop技术栈", "studymodel":"online", "pic": "http://www.b 阅读全文

posted @ 2022-04-15 14:24 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V37|——|ELK.v37|集群|Java API操作ES.V5|

摘要: 一、Java API操作ES:查询操作 ### 查询操作:termquery ~~~ # 步骤八:查询操作:termquery @Test public void termQuery() throws IOException { //根据关键字 不分词检索 final SearchRequest s 阅读全文

posted @ 2022-04-15 14:23 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V36|——|ELK.v36|集群|Java API操作ES.V4|

摘要: 一、Java API操作ES:文档操作 ### 编程实现:文档操作;添加doc ~~~ # 步骤五:文档操作;添加doc @Test public void addDoc() throws IOException { //准备一个添加文档的对象 final IndexRequest indexReq 阅读全文

posted @ 2022-04-15 14:23 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V35|——|ELK.v35|集群|Java API操作ES.V3|

摘要: 一、Java API操作ES:创建索引:方法一 ### 创建索引:方法一 ~~~ # 步骤二:方法一:创建索引 @Test public void createIndex() { final CreateIndexRequest indexRequest = new CreateIndexReque 阅读全文

posted @ 2022-04-15 14:22 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V33|——|ELK.v33|集群|Java API操作ES.V1|

摘要: 一、Java API操作ES ### Java API操作ES ### 创建一个maven工程:elasticsearch ~~~ # 官网说明: ~~~ https://www.elastic.co/guide/en/elasticsearch/client/java-rest/7.3/java- 阅读全文

posted @ 2022-04-15 14:21 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V34|——|ELK.v34|集群|Java API操作ES.V2|

摘要: 一、Java API操作ES:创建client ### 创建Client package com.yanqi.es; import org.apache.http.HttpHost; import org.elasticsearch.client.RestClient; import org.ela 阅读全文

posted @ 2022-04-15 14:21 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V32|——|ELK.v32|集群|QueryDSL|聚合分析.V3|

摘要: 一、桶聚合 ### Bucket Aggregations,桶聚合。 ~~~ 它执行的是对文档分组的操作(与sql中的group by类似), ~~~ 把满足相关特性的文档分到一个桶里,即桶分, ~~~ 输出结果往往是一个个包含多个文档的桶(一个桶就是一个group) ~~~ bucket:一个数据 阅读全文

posted @ 2022-04-15 14:20 yanqi_vip 阅读(16) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V31|——|ELK.v31|集群|QueryDSL|聚合分析.V2|

摘要: 一、指标聚合:max min sum avg ### 示例一:查询所有书中最贵的 POST /book/_search { "size": 0, "aggs": { "max_price": { "max": { "field": "price" } } } } 二、文档计数count ### 示例 阅读全文

posted @ 2022-04-15 14:19 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V30|——|ELK.v30|集群|QueryDSL|聚合分析.V1|

摘要: 一、聚合分析 ### 聚合介绍 ~~~ 聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算, ~~~ 如:找出某字段(或计算表达式的结果)的最大值、最小值,计算和、平均值等。 ~~~ Elasticsearch作为搜索引擎兼数据库,同样提供了强大的聚合分析能力。 ~~~ 对一个 阅读全文

posted @ 2022-04-15 14:19 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V29|——|ELK.v29|集群|QueryDSL|文档批量操作.V1|

摘要: 一、bulk 批量增删改 ### Bulk 操作解释将文档的增删改查一些列操作,通过一次请求全都做完。减少网络传输次数。 ~~~ # 语法: POST /_bulk {"action": {"metadata"}} {"data"} ### 操作示例 ~~~ # 如下操作,删除1,新增5,修改2。 阅读全文

posted @ 2022-04-15 14:19 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V27|——|ELK.v27|集群|QueryDSL|高亮|

摘要: 一、高亮 ### Elasticsearch中实现高亮的语法比较简单: ~~~ # 在使用match查询的同时,加上一个highlight属性: ~~~ pre_tags:前置标签 ~~~ post_tags:后置标签 ~~~ fields:需要高亮的字段 ~~~ name:这里声明title字段需 阅读全文

posted @ 2022-04-15 14:18 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V28|——|ELK.v28|集群|QueryDSL|文档批量操作.V1|

摘要: 一、文档批量操作(bulk 和 mget) ### mget 批量查询 ~~~ 单条查询 GET /test_index/_doc/1,如果查询多个id的文档一条一条查询,网络开销太大。 GET /_mget { "docs" : [ { "_index" : "book", "_id" : 1 } 阅读全文

posted @ 2022-04-15 14:18 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V25|——|ELK.v25|集群|QueryDSL|排序|

摘要: 一、排序 ### 相关性评分排序 ~~~ 默认情况下,返回的结果是按照 相关性 进行排序的——最相关的文档排在最前。 ~~~ 首先看看 sort 参数以及如何使用它。 ~~~ 为了按照相关性来排序,需要将相关性表示为一个数值。 ~~~ 在 Elasticsearch 中, 相关性得分 由一个浮点数进 阅读全文

posted @ 2022-04-15 14:17 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V26|——|ELK.v26|集群|QueryDSL|分页|

摘要: 一、分页 ### Elasticsearch中实现分页的语法非常简单: POST /book/_search { "query": { "match_all": {} }, "sort": [ {"price": {"order": "desc"}} ], "size": 2, "from": 0 阅读全文

posted @ 2022-04-15 14:17 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V24|——|ELK.v24|集群|QueryDSL|Filter DSL|

摘要: 一、Filter DSL ### Filter DSL ~~~ Elasticsearch中的所有的查询都会触发相关度得分的计算。 ~~~ 对于那些不需要相关度得分的场景下,Elasticsearch以过滤器的形式提供了另一种查询功能, ~~~ 过滤器在概念上类似于查询,但是它们有非常快的执行速度, 阅读全文

posted @ 2022-04-15 14:16 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V22|——|ELK.v22|集群|QueryDSL|词条级搜索.V2|

摘要: 一、词条搜索(term query) ### term 查询用于查询指定字段包含某个词项的文档 POST /book/_search { "query": { "term" : { "name" : "solr" } } } 二、词条集合搜索(terms query) ### terms 查询用于查 阅读全文

posted @ 2022-04-15 14:15 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V23|——|ELK.v23|集群|QueryDSL|复合搜索|

摘要: 一、复合搜索(compound query) ### 布尔搜索(bool query) ~~~ # bool 查询用bool操作来组合多个查询子句为一个查询。 可用的关键字: ~~~ must:必须满足 ~~~ filter:必须满足,对集合包含/排除的简单检查,计算速度非常快,不参与、不影响评分 阅读全文

posted @ 2022-04-15 14:15 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V21|——|ELK.v21|集群|QueryDSL|词条级搜索.V1|

摘要: 一、词条级搜索(term-level queries) ### 词条级搜索 ~~~ 可以使用term-level queries根据结构化数据中的精确值查找文档。 ~~~ 结构化数据的值包括日期范围、IP地址、价格或产品ID。 ~~~ 与全文查询不同,term-level queries不分析搜索词 阅读全文

posted @ 2022-04-15 14:14 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V20|——|ELK.v20|集群|QueryDSL|全文搜索.V3|

摘要: 一、query_string 查询 ### query_string查询 ~~~ 该查询与match类似,但是match需要指定字段名, ~~~ query_string是在所有字段中搜索,范围更广泛。 ~~~ Query String Query提供了无需指定某字段而对文档全文进行匹配查询的 ~~ 阅读全文

posted @ 2022-04-15 14:13 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V19|——|ELK.v19|集群|QueryDSL|全文搜索.V2|

摘要: 一、短语搜索(match phrase query) ### 短语搜索 ~~~ match_phrase是分词的,text也是分词的。 ~~~ match_phrase的分词结果必须在text字段分词中都包含,而且顺序必须相同,而且必须都是连续的 ### 搜索示例 GET /yanqi-proper 阅读全文

posted @ 2022-04-15 14:13 yanqi_vip 阅读(25) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V18|——|ELK.v18|集群|QueryDSL|全文搜索.V1|

摘要: 一、全文搜索(full-text query) ### 全文搜索(full-text query) ~~~ 全文搜索能够搜索已分析的文本字段,如电子邮件正文,商品描述等。 ~~~ 使用索引期间应用于字段的同一分词器处理查询字符串。全文搜索的分类很多 几个典型的如下: 二、匹配搜索 ### 匹配搜索( 阅读全文

posted @ 2022-04-15 14:12 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V17|——|ELK.v17|集群|QueryDSL|查询所有|

摘要: 一、Query DSL ### QueryDSL ~~~ https://www.elastic.co/guide/en/elasticsearch/reference/7.3/query-dsl.html ~~~ Elasticsearch提供了基于JSON的完整查询DSL(Domain Spec 阅读全文

posted @ 2022-04-15 14:12 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V15|——|ELK.v15|集群|索引管理|文档增删改查及局部更新.V1|

摘要: 一、文档增删改查及局部更新 ### 文档增删改查及局部更新 ~~~ 文档,即索引库中的数据,会根据规则创建索引,将来用于搜索。 ~~~ 可以类比做数据库中的一行数据。 ### 新增文档 ~~~ 新增文档时,涉及到id的创建方式,手动指定或者自动生成。 ~~~ 新增文档(手动指定id) 二、创建文档: 阅读全文

posted @ 2022-04-15 14:11 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V16|——|ELK.v16|集群|索引管理|文档增删改查及局部更新.V2|

摘要: 一、更新文档(全部更新) ### 把刚才新增的请求方式改为PUT,就是修改了,不过修改必须指定id ~~~ id对应文档存在,则修改 ~~~ id对应文档不存在,则新增 ~~~ 比如,我们把使用id为4,不存在,则应该是新增 ### 更新示例 ### 再次执行刚才的请求,不过把数据改一下:可以看到结 阅读全文

posted @ 2022-04-15 14:11 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&ElasticSearch.V14|——|ELK.v14|集群|索引管理|映射操作|

摘要: 一、映射操作 ### 映射操作 ~~~ 索引创建之后,等于有了关系型数据库中的database。 ~~~ Elasticsearch7.x取消了索引type类型的设置,不允许指定类型,默认为_doc,但字段仍然是有的, ~~~ 我们需要设置字段的约束信息,叫做字段映射(mapping)字段的约束包括 阅读全文

posted @ 2022-04-15 14:10 yanqi_vip 阅读(29) 评论(0) 推荐(0)

导航