大数据 - 随笔分类 - bigbigtree

数据湖&湖仓一体简介

摘要：1 简介术语数据库数据库是“按照数据结构来组织、存储和管理数据的仓库”。广义上的数据库，在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的，且数据和程序之间具备非常强的依赖性，应用较为有限。现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来阅读全文

posted @ 2024-03-13 11:13 bigbigtree 阅读(1156) 评论(0) 推荐(2)

大模型术语

摘要：Zero-shot Zero-shot learning通过利用已有的先验知识和语义信息，将已知的类别或任务与新的类别或任务进行联系，从而进行预测。具体来说，它通过学习类别或任务之间的关系和特征，将已有的知识迁移到新的类别或任务上。 Fine-tuning Fine-tuning是指在机器学习中对预阅读全文

posted @ 2023-10-12 14:58 bigbigtree 阅读(244) 评论(0) 推荐(0)

spark基础知识汇总

摘要：[toc] 基础概述 + Spark计算平台有两个重要角色，Driver和executor + Driver + Driver充当Application的master角色，负责任务执行计划生成和任务分发及调度； + Driver负责生成逻辑查询计划、物理查询计划和把任务派发给executor + 阅读全文

posted @ 2019-09-20 09:53 bigbigtree 阅读(2110) 评论(0) 推荐(1)

SparkThriftServer 源码分析

摘要：[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码，插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的，Beeline属于是Hive的源码，下面开始进入流程阅读全文

posted @ 2018-04-18 10:30 bigbigtree 阅读(1221) 评论(0) 推荐(0)

SparkStreaming+Kafka 处理实时WIFI数据

摘要：业务背景技术选型 Kafka Producer SparkStreaming 接收Kafka数据流基于Receiver接收数据直连方式读取kafka数据 Direct连接示例使用Zookeeper维护KafkaOffset示例 SparkStreaming 数据处理调优合理的批处理时间（阅读全文

posted @ 2017-05-26 13:01 bigbigtree 阅读(6469) 评论(0) 推荐(0)

Kafka Eagle Consumers不显示

摘要：原因： kafka.eagle.offset.storage配置有误该配置的作用：# kafka offset storage -- Offset stored in a Kafka cluster, if stored in the zookeeper, you can not use this 阅读全文

posted @ 2017-05-23 09:35 bigbigtree 阅读(2666) 评论(0) 推荐(0)

hive建表报错：Specified key was too long; max key length is 767 bytes，hadoophive

摘要：情况描述 Hive建表时报错，元数据存储在mysql中。报错信息如下：解决方法：修改数据库编码，在mysql机器的上命令行中运行: alter database hive character set latin1; 阅读全文

posted @ 2017-05-17 11:06 bigbigtree 阅读(514) 评论(0) 推荐(0)

Elasticsearch index fields 重命名

摘要：reindex数据复制，重索引字段重命名把flag重命名为tag 案例描述在数据录入时，字段yxdm和字段jwzydm数据位置错位了，现在需要将数据调换回来方法先复制数据索引到bak 删除原索引数据，并从bak索引重新录入到原索引注意需要使用yxdm1作为中间变量存储交换的字段参考阅读全文

posted @ 2017-05-09 11:06 bigbigtree 阅读(8700) 评论(0) 推荐(0)

NoSuchMethodError: ... addOnCompleteCallback

摘要：问题描述：使用ES 2.3.1和Spark streaming 2.1时，出现以上报错信息。原因： addOnCompleteCallback方法在spark2.0中移除了 The addOnCompleteCallback method was removed from the TaskCon 阅读全文

posted @ 2017-04-24 15:42 bigbigtree 阅读(319) 评论(0) 推荐(0)

An SPI class of type org.apache.lucene.codecs.PostingsFormat with name 'Lucene50' does not exist. You need to add the corresponding JAR file supporting this SPI to your classpath. The current classp

摘要：背景介绍：当ES中guava库与hive等组件的库冲突时，对Elasticsearch库进行shade，relocate解决库冲突问题。当使用"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"对资源进行重定向阅读全文

posted @ 2017-04-19 19:46 bigbigtree 阅读(2725) 评论(1) 推荐(0)

解决Hive与Elasticsearch共有库 guava 冲突 NoSuchMethodError

摘要：情况描述解决方法方法一：Shade and relocate 简介 Shade Elasticsearch 引入shade ES jar 方法二：修改集群Job配置策略（未实验）情况描述使用JDBC从Hive中抽取数据，所以maven项目中有hive依赖库；数据导入Elasticsearc 阅读全文

posted @ 2017-04-05 14:23 bigbigtree 阅读(7092) 评论(0) 推荐(0)

elasticsearch client 为空错误信息：java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecut‌or()Ljava/util/concu‌rrent/Executor

摘要：错误信息：java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecut‌or()Ljava/util/concu‌rrent/Executor 现象：创建ES客户端连接失败解决阅读全文

posted @ 2017-03-22 10:31 bigbigtree 阅读(6319) 评论(0) 推荐(0)

Geoserver+Tomcat+GeoWebCache搭建地图服务

摘要：依赖TomcatGeoserverGeoWebCache环境部署JDKTomcat服务器Geoserver配置GeoWebCache配置环境启动使用使用geowebcache进行切片依赖 Tomcat 不要下载8.0.24版本，发布带ImageIO的服务存在bug： https://bz.apac 阅读全文

posted @ 2016-12-20 19:58 bigbigtree 阅读(9326) 评论(0) 推荐(0)

ElasticSearch+ElasticGeo+Geoserver发布ES地理数据

摘要：依赖GeoserverElasticSearchElasticGeo部署部署ElasticGeo使用创建ES数据源并发布发布依赖 Geoserver 环境搭建参考： ElasticSearch 环境搭建参考： ElasticGeo 用于在Geoserver中发布Elasticsearch的数据，支阅读全文

posted @ 2016-12-20 19:53 bigbigtree 阅读(4609) 评论(1) 推荐(0)

Spark 官方文档（4）——Configuration配置

摘要：Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置，阅读全文

posted @ 2016-07-19 16:20 bigbigtree 阅读(18512) 评论(0) 推荐(0)

Spark 官方文档（2）——集群模式

摘要：Spark版本：1.6.2 简介：本文档简短的介绍了spark如何在集群中运行，便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。组件 spark应用程序通过主程序的SparkContext对象进行协调，在集群上通过一系列独立的处理流程运行。为了便于迁移，SparkCo 阅读全文

posted @ 2016-07-17 21:32 bigbigtree 阅读(499) 评论(0) 推荐(0)

spark 官方文档（1）——提交应用程序

摘要：Spark版本：1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口，你不需要因为平台的迁移改变配置。Spark支持三种集群：Standalone、Apache Mesos和Hadoop Yarn。绑定应用程序依赖库如果你的应用程序依赖其他项目，需要将其一起打包，打包时需要阅读全文

posted @ 2016-07-14 11:46 bigbigtree 阅读(2018) 评论(0) 推荐(0)

Learning Spark 第四章——键值对处理

摘要：本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作，使用相同的key聚集或者对不同的RDD进行聚集。部分情况下，需要将spark中的数据记录转换为键值对然后进行聚集处理。我们也会对键值对RDD的高级特性——分区进行讨论，用户可以控制RDD在节点间的布局，确保数据在同一机器上面，减阅读全文

posted @ 2016-07-07 15:03 bigbigtree 阅读(1352) 评论(0) 推荐(0)

mongodb certification

摘要：又偷懒也有学到不少东西这个东西算是小结啦给2013年的碌碌无为挽回点面子哈哈~ 阅读全文

posted @ 2014-02-06 13:01 bigbigtree 阅读(210) 评论(0) 推荐(0)

mongodb university week4

摘要：1、index Creation，background如果在foreground运行index，会阻塞其他writer，如果background运行，会比较慢，但不会阻塞其他writer，可以并发写入。但是在产品级别的应用中，你可以同时建立replica set，在其中一个set中运行EnsureIndex foreground ，在其他的set中允许访问，然后再同步。Tips: A mongod instance can only build one background index at a time per database. Although the database server.. 阅读全文

posted @ 2013-12-23 21:28 bigbigtree 阅读(688) 评论(0) 推荐(0)

bigbigtree

随笔分类 - 大数据

公告