随笔分类 -  大数据

摘要:1 简介 术语 数据库 数据库是“按照数据结构来组织、存储和管理数据的仓库”。 广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。 现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来 阅读全文
posted @ 2024-03-13 11:13 bigbigtree 阅读(1121) 评论(0) 推荐(2)
摘要:Zero-shot Zero-shot learning通过利用已有的先验知识和语义信息,将已知的类别或任务与新的类别或任务进行联系,从而进行预测。具体来说,它通过学习类别或任务之间的关系和特征,将已有的知识迁移到新的类别或任务上。 Fine-tuning Fine-tuning是指在机器学习中对预 阅读全文
posted @ 2023-10-12 14:58 bigbigtree 阅读(234) 评论(0) 推荐(0)
摘要:[toc] 基础 概述 + Spark计算平台有两个重要角色,Driver和executor + Driver + Driver充当Application的master角色,负责任务执行计划生成和任务分发及调度; + Driver负责生成逻辑查询计划、物理查询计划和把任务派发给executor + 阅读全文
posted @ 2019-09-20 09:53 bigbigtree 阅读(2103) 评论(0) 推荐(1)
摘要:[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码,插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的,Beeline属于是Hive的源码,下面开始进入流程 阅读全文
posted @ 2018-04-18 10:30 bigbigtree 阅读(1215) 评论(0) 推荐(0)
摘要:业务背景 技术选型 Kafka Producer SparkStreaming 接收Kafka数据流 基于Receiver接收数据 直连方式读取kafka数据 Direct连接示例 使用Zookeeper维护KafkaOffset示例 SparkStreaming 数据处理 调优 合理的批处理时间( 阅读全文
posted @ 2017-05-26 13:01 bigbigtree 阅读(6464) 评论(0) 推荐(0)
摘要:原因: kafka.eagle.offset.storage配置有误 该配置的作用:# kafka offset storage -- Offset stored in a Kafka cluster, if stored in the zookeeper, you can not use this 阅读全文
posted @ 2017-05-23 09:35 bigbigtree 阅读(2664) 评论(0) 推荐(0)
摘要:情况描述 Hive建表时报错,元数据存储在mysql中。 报错信息 如下: 解决方法: 修改数据库编码,在mysql机器的上命令行中运行: alter database hive character set latin1; 阅读全文
posted @ 2017-05-17 11:06 bigbigtree 阅读(511) 评论(0) 推荐(0)
摘要:reindex数据复制,重索引 字段重命名 把flag重命名为tag 案例 描述 在数据录入时,字段yxdm和字段jwzydm数据位置错位了,现在需要将数据调换回来 方法 先复制数据索引到bak 删除原索引数据,并从bak索引重新录入到原索引 注意需要使用yxdm1作为中间变量存储交换的字段 参考 阅读全文
posted @ 2017-05-09 11:06 bigbigtree 阅读(8686) 评论(0) 推荐(0)
摘要:问题描述: 使用ES 2.3.1和Spark streaming 2.1时,出现以上报错信息。 原因: addOnCompleteCallback方法在spark2.0中移除了 The addOnCompleteCallback method was removed from the TaskCon 阅读全文
posted @ 2017-04-24 15:42 bigbigtree 阅读(316) 评论(0) 推荐(0)
摘要:背景介绍: 当ES中guava库与hive等组件的库冲突时,对Elasticsearch库进行shade,relocate解决库冲突问题。 当使用"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"对资源进行重定向 阅读全文
posted @ 2017-04-19 19:46 bigbigtree 阅读(2719) 评论(1) 推荐(0)
摘要:情况描述 解决方法 方法一:Shade and relocate 简介 Shade Elasticsearch 引入shade ES jar 方法二:修改集群Job配置策略(未实验) 情况描述 使用JDBC从Hive中抽取数据,所以maven项目中有hive依赖库; 数据导入Elasticsearc 阅读全文
posted @ 2017-04-05 14:23 bigbigtree 阅读(7088) 评论(0) 推荐(0)
摘要:错误信息:java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecut‌​or()Ljava/util/concu‌​rrent/Executor 现象:创建ES客户端连接失败 解决 阅读全文
posted @ 2017-03-22 10:31 bigbigtree 阅读(6315) 评论(0) 推荐(0)
摘要:依赖TomcatGeoserverGeoWebCache环境部署JDKTomcat服务器Geoserver配置GeoWebCache配置环境启动使用使用geowebcache进行切片 依赖 Tomcat 不要下载8.0.24版本,发布带ImageIO的服务存在bug: https://bz.apac 阅读全文
posted @ 2016-12-20 19:58 bigbigtree 阅读(9321) 评论(0) 推荐(0)
摘要:依赖GeoserverElasticSearchElasticGeo部署部署ElasticGeo使用创建ES数据源并发布发布 依赖 Geoserver 环境搭建参考: ElasticSearch 环境搭建参考: ElasticGeo 用于在Geoserver中发布Elasticsearch的数据,支 阅读全文
posted @ 2016-12-20 19:53 bigbigtree 阅读(4601) 评论(1) 推荐(0)
摘要:Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置, 阅读全文
posted @ 2016-07-19 16:20 bigbigtree 阅读(18499) 评论(0) 推荐(0)
摘要:Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。 组件 spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行。为了便于迁移,SparkCo 阅读全文
posted @ 2016-07-17 21:32 bigbigtree 阅读(498) 评论(0) 推荐(0)
摘要:Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置。Spark支持三种集群:Standalone、Apache Mesos和Hadoop Yarn。 绑定应用程序依赖库 如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要 阅读全文
posted @ 2016-07-14 11:46 bigbigtree 阅读(2007) 评论(0) 推荐(0)
摘要:本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作,使用相同的key聚集或者对不同的RDD进行聚集。部分情况下,需要将spark中的数据记录转换为键值对然后进行聚集处理。我们也会对键值对RDD的高级特性——分区进行讨论,用户可以控制RDD在节点间的布局,确保数据在同一机器上面,减 阅读全文
posted @ 2016-07-07 15:03 bigbigtree 阅读(1351) 评论(0) 推荐(0)
摘要:又偷懒 也有学到不少东西 这个东西算是小结啦 给2013年的碌碌无为挽回点面子 哈哈~ 阅读全文
posted @ 2014-02-06 13:01 bigbigtree 阅读(209) 评论(0) 推荐(0)
摘要:1、index Creation,background如果在foreground运行index,会阻塞其他writer,如果background运行,会比较慢,但不会阻塞其他writer,可以并发写入。但是在产品级别的应用中,你可以同时建立replica set,在其中一个set中运行EnsureIndex foreground ,在其他的set中允许访问,然后再同步。Tips: A mongod instance can only build one background index at a time per database. Although the database server.. 阅读全文
posted @ 2013-12-23 21:28 bigbigtree 阅读(685) 评论(0) 推荐(0)