随笔分类 - 大数据
摘要:1 简介 术语 数据库 数据库是“按照数据结构来组织、存储和管理数据的仓库”。 广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。 现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来
阅读全文
摘要:Zero-shot Zero-shot learning通过利用已有的先验知识和语义信息,将已知的类别或任务与新的类别或任务进行联系,从而进行预测。具体来说,它通过学习类别或任务之间的关系和特征,将已有的知识迁移到新的类别或任务上。 Fine-tuning Fine-tuning是指在机器学习中对预
阅读全文
摘要:[toc] 基础 概述 + Spark计算平台有两个重要角色,Driver和executor + Driver + Driver充当Application的master角色,负责任务执行计划生成和任务分发及调度; + Driver负责生成逻辑查询计划、物理查询计划和把任务派发给executor +
阅读全文
摘要:[toc] 版本 spark 2.2.0 起点 + Spark thrift server复用了Hive Server2的源码,插入了自己的覆盖的方法。 + 整个过程里面需要穿插着Hive和Spark的源码。 + 整个流程是从Beeline开始的,Beeline属于是Hive的源码,下面开始进入流程
阅读全文
摘要:业务背景 技术选型 Kafka Producer SparkStreaming 接收Kafka数据流 基于Receiver接收数据 直连方式读取kafka数据 Direct连接示例 使用Zookeeper维护KafkaOffset示例 SparkStreaming 数据处理 调优 合理的批处理时间(
阅读全文
摘要:原因: kafka.eagle.offset.storage配置有误 该配置的作用:# kafka offset storage -- Offset stored in a Kafka cluster, if stored in the zookeeper, you can not use this
阅读全文
摘要:情况描述 Hive建表时报错,元数据存储在mysql中。 报错信息 如下: 解决方法: 修改数据库编码,在mysql机器的上命令行中运行: alter database hive character set latin1;
阅读全文
摘要:reindex数据复制,重索引 字段重命名 把flag重命名为tag 案例 描述 在数据录入时,字段yxdm和字段jwzydm数据位置错位了,现在需要将数据调换回来 方法 先复制数据索引到bak 删除原索引数据,并从bak索引重新录入到原索引 注意需要使用yxdm1作为中间变量存储交换的字段 参考
阅读全文
摘要:问题描述: 使用ES 2.3.1和Spark streaming 2.1时,出现以上报错信息。 原因: addOnCompleteCallback方法在spark2.0中移除了 The addOnCompleteCallback method was removed from the TaskCon
阅读全文
摘要:背景介绍: 当ES中guava库与hive等组件的库冲突时,对Elasticsearch库进行shade,relocate解决库冲突问题。 当使用"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"对资源进行重定向
阅读全文
摘要:情况描述 解决方法 方法一:Shade and relocate 简介 Shade Elasticsearch 引入shade ES jar 方法二:修改集群Job配置策略(未实验) 情况描述 使用JDBC从Hive中抽取数据,所以maven项目中有hive依赖库; 数据导入Elasticsearc
阅读全文
摘要:错误信息:java.lang.NoSuchMethodError: com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor 现象:创建ES客户端连接失败 解决
阅读全文
摘要:依赖TomcatGeoserverGeoWebCache环境部署JDKTomcat服务器Geoserver配置GeoWebCache配置环境启动使用使用geowebcache进行切片 依赖 Tomcat 不要下载8.0.24版本,发布带ImageIO的服务存在bug: https://bz.apac
阅读全文
摘要:依赖GeoserverElasticSearchElasticGeo部署部署ElasticGeo使用创建ES数据源并发布发布 依赖 Geoserver 环境搭建参考: ElasticSearch 环境搭建参考: ElasticGeo 用于在Geoserver中发布Elasticsearch的数据,支
阅读全文
摘要:Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置,
阅读全文
摘要:Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。 组件 spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行。为了便于迁移,SparkCo
阅读全文
摘要:Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置。Spark支持三种集群:Standalone、Apache Mesos和Hadoop Yarn。 绑定应用程序依赖库 如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要
阅读全文
摘要:本章主要介绍Spark如何处理键值对。K-V RDDs通常用于聚集操作,使用相同的key聚集或者对不同的RDD进行聚集。部分情况下,需要将spark中的数据记录转换为键值对然后进行聚集处理。我们也会对键值对RDD的高级特性——分区进行讨论,用户可以控制RDD在节点间的布局,确保数据在同一机器上面,减
阅读全文
摘要:又偷懒 也有学到不少东西 这个东西算是小结啦 给2013年的碌碌无为挽回点面子 哈哈~
阅读全文
摘要:1、index Creation,background如果在foreground运行index,会阻塞其他writer,如果background运行,会比较慢,但不会阻塞其他writer,可以并发写入。但是在产品级别的应用中,你可以同时建立replica set,在其中一个set中运行EnsureIndex foreground ,在其他的set中允许访问,然后再同步。Tips: A mongod instance can only build one background index at a time per database. Although the database server..
阅读全文

浙公网安备 33010602011771号